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秋水 时 至 ， 百川 灌 河 ; BALAK, BREEAM RES, 
于 是 焉 河 伯 欣然 自 喜 ， 以 天 下 之 美 为 尽 在 己 。 
顺 流 而 东 行 ， 至 于 北海 ， 东 面 而 视 ， 不 见 水 端 。 
一 一 《庄子 。 秋 水 篇 》 


互联 网 的 时 机 到 了 ， 数 据 汇 入 数据 库 ， 流 量 之 大 ， 不 能 辨别 分 类 聚 类 。 
于 是 数据 科学 家 沾沾自喜 ， 以 为 大 数据 的 美丽 结果 ， 我 说 了 算 。 
数据 流量 顺势 加 大 ， 汇 流 成 海量 ， 看 数据 沧海 ， 不 见 因果 关系 。 
一 一 《大 数据 篇 》 


本 书 期 望 以 深入 浅 出 接地 气 的 方式 介绍 数据 科学 ， 即 帮助 读者 轻松 学 习 数 据 科学 理 
又 有 利于 读者 动手 〈 手 算 和 电 算 ) 完成 数据 科学 实战 。 因 此 本 书 特色 是 : 

@ -EEFE 

本 书 继承 清华 大 学 出 版 社 出 版 的 《大 话 统计 学 》 一 书 学 习 地 图 的 精神 ， 内 容 尽量 用 图 


、 表 格 、 思 维 导 图 说 明 。 学 习 地 图 是 让 你 知道 你 的 位 置 ， 并 且 告诉 你 如 何 去 目 的 地 。 


O 避免 深奥 的 数学 证 明 ， 采 用 简单 的 数学 说 明 
奥 卡 姆 剃刀 原理 COccam's Razor) 认为 ， 最 好 的 科学 理论 是 能 解释 所 有 事实 的 最 简 


单 的 理论 (The best scientific theory is the simplest one that explains all the facts) 。 数 据 科学 
机 器 学 习 秉 承 简约 法 则 : 切 勿 浪费 较 多 东西 ， 去 做 “用 较 少 的 东西 ， 同 样 可 以 做 好 的 事 
情 ”， 避 免 “ 过 拟 合 ”的 精神 。 学 会 本 书 数据 科学 基本 观念 ， 可 以 进一步 理解 机 器 学 习 的 
理论 证 明和 复杂 模型 ， 例 如 深度 学 习 。 


Q 章节 连贯 ， 一 气 呵 成 
本 书 说 明了 数据 科学 模型 输入 数据 的 类 型 和 限制 ， 算 法 的 分 类 异同 和 因果 关系 ， 输 出 
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结果 的 评价 和 优 劣 。 数 据 科学 要 考虑 ， 问 题 种 类 ， 数 据 来 源 ， 数 据 类 型 ， 分 析 方 法 ， 模 型 
和 算法 ， 信 息 结果 ， 验 证 评价 和 应 用 价值 。 有 些 实战 数据 出 现在 许多 章节 。 

O 动手 计算 

本 书 中 有 小 型 数据 的 例题 演算 ， 也 有 大 型 数据 的 实战 程序 。 数 据 科 学 模型 涉及 关联 分 
析 、 聚 类 分 析 、 贝 叶 斯 分 类 、 近 邻 法 、 决 策 树 、 降 维 分 析 、 回 归 模型 等 算法 ， 利 用 小 数据 
例题 介绍 计算 步 又， 同时 用 R 语言 对 照 计算 结果 。 另 外 ， 也 有 大 数据 的 案例 数据 用 R 语 言 计 
算 结果 ， 例 如 推荐 系统 、 支 持 向 量 机 、 集 成 学 习 等 ， 只 有 大 数据 的 案例 数据 用 R 语 言 计算 。 

因为 本 书 使 用 R 语 言 ， 而 有 语言 的 包 、 函 数 、 数 据 、 参 数 、 输 出 信息 、 国 六 2 
等 都 是 用 英文 ， 对 每 个 名 词 的 英文 名 词 要 特别 注意 ， 所 以 中 英文 索引 很 重 KB 
要 。 本 书 中 的 R 语 言 程序 码 (R 例 1.1~R 例 13.4) 、 实 例 的 数据 集 ( 表 2-4 实 Fe 
战 数据 及 补充 数据 如 ， 北京 PM2.5 数 据 等 》、 出 版 后 的 索引 、 勘 误 表 等 , 可 SS 
在 清华 大 学 出 版 社 扫 码 下 载 。 
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本 篇 内 容 涵 盖 机 器 学 习 驱 动 下 的 大 数据 所 需 的 各 种 概 
念 与 技术 。 了 解 或 掌握 本 篇 内 容 以 后 ， 即 可 顺利 进入 后 面 
的 实战 学 习 中 。 
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/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


o 大 数据 与 相关 学 科 的 定义 


大 数据 (Big Data) 与 统计 学 、 数 据 挖掘 、 数 据 科学 、 机 器 学 习 、 人 工 智能 和 商业 智能 
等 相关 技术 ， 都 是 解决 数据 世界 里 的 问题 的 算法 和 基础 理论 ， 应 用 在 商业 、 医 学 、 工 程 等 
各 个 领域 。 

以 下 就 从 大 数据 、 数 据 挖 掘 、 机 器 学 习 、 知 识 管理 、 数 据 科 学 、 人 工 智 能 、 商 业 智 
能 与 统计 学 等 学 科 领 域 ， 分 别 给 出 定义 。 这 些 定义 有 很 多 相同 的 地 方 ， 因 为 它们 有 很 多 共 
同 的 领域 ， 其 不 同 的 地 方 ， 可 以 说 是 从 不 同 的 角度 来 看 ， 也 就 是 从 挖掘 、 学 习 、 学 科 、 智 
能 、 知 识 等 角度 来 定义 。 


1.1.1 大 数据 的 定义 


研究 机 构 Gartner 对 于 大 数据 给 出 这 样 的 定义 : 大 数据 是 需要 新 处 理 模 型 ， 才 能 具有 更 
强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 来 适应 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 

麦肯锡 全 球 研究 所 给 出 的 大 数据 定义 是 : 一 种 在 获取 、 存 储 、 管 理 、 分 析 方面 ， 规 模 
大 到 超出 了 传统 数据 库 、 软 件 工具 能 力 范 围 的 数据 集合 ， 具 有 海量 的 数据 规模 、 快 速 的 数 
据 流转 、 多 样 的 数据 类 型 和 价值 密度 低 四 大 特征 。 

大 数据 的 四 大 特性 是 4V: 大 、 快 、 杂 、 疑 ， 即 数量 庞 “ 大 ” (Volume) 、 变 化 飞 
“ 快 ” (Velocity) 、 种 类 繁 “ 杂 ” (Variety) 、 真 实 存 “ 疑 ” (Veracity) 。 最 后 一 个 特性 
“ 疑 ”， 有 些 负 面 ， 其 实 许多 公司 的 大 数据 报导 是 存疑 的 ， 是 忽悠 人 的 ， 请 见 本 章 最 后 一 
节 大 数据 的 江湖 门派 。 后 来 有 人 又 加 了 一 个 特性 : 价值 密度 “ 低 ” (Value》。 所 以 ， 大 数 
据 的 特性 如 下 。 

e X: 数据 量 巨大 ， 数 据 的 记录 或 实例 数量 大 ， 可 能 有 成 亿 上 兆 笔 。 

e 快 : 数据 成 长 快速 ， 变 化 快速 ， 算 法 快速 ， 要 跟 上 快速 的 脚步 ， 唯 快 不 败 。 
杂 : 数据 变量 繁杂 ， 具 有 数字 、 文 本 、 图 片 、 视 频 、 音 频 、 地 理 位 置信 息 等 多 种 
类 型 。 
e 确 : 数据 来 源 和 分 析 结果 的 正确 性 与 可 靠 性 ， 需 要 评价 。 
e (E: 分 析 结 果 的 价值 密度 低 。 价 值 除 以 数据 数量 的 密度 低 。 
大 数据 就 是 要 将 这 五 个 特性 转换 成 正面 的 能 量 ， 所 以 有 挖掘 、 学 习 、 科 学 、 智 能 。 
大 数据 特性 的 数据 表示 如 图 1-1 所 示 。 


数据 概述 


数据 类 型 
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图 1-1 大 数据 的 “5V” 特 性 


什么 是 价值 ? 大 数据 的 价值 是 什么 ? 
我 们 看 《复仇 者 联盟 》 中 的 美国 队长 、 和 雷神 索 尔 、 钢 铁人 、 浩 克 、 蜂 蛛 侠 ， 还 有 超 
、 蝙 蝠 侠 等 超级 英雄 的 共同 特征 ， 除 了 有 正义 感 ， 打 击 邪 恶 以 外 ， 就 是 : 
e 速度 快 ， 几 乎 都 会 飞 ; 
e 成 长 ， 有 非凡 的 超 能 力 ; 
e 变形 ， 改 变 造 型 或 有 特殊 兵器 ; 
e 平台 ， 超 级 英雄 不 再 单打 独 斗 ， 有 总 部 或 联盟 。 
信息 系统 的 价值 是 : 
e ZE (Run : 企业 更 有 效率 ， 更 快速 、 更 省 钱 ; 
e 成 长 (Growth) : 营销 、 份 额 、 品 质 大 幅 增长 ; 
e #22) (Transformation) : 企业 转型 或 商业 模型 的 改变 ; 
e 平台 (Platform) : 互动 共享 的 网 络 模型 。 
大 数据 的 价值 体现 在 以 下 几 个 方面 。 
e 经 营 : 及 时 解析 故障 、 问 题 和 缺陷 的 根源 。 
经 营 : 数据 挖掘 以 规避 欺诈 行为 。 
: 根据 客户 的 购买 习惯 ,为 其 推送 可 能 感 兴趣 的 优惠 信息 。 
成 长 :从 大 量 客户 中 快速 识别 出 金牌 客户 。 
e MK: 对 大 量 消费 者 提供 产品 或 服务 的 企业 ， 可 以 利用 大 数据 进行 精准 营销 。 
e 转型 :制造 业 ( 如 IBM) 转型 为 信息 服务 业 ， 中 小 微 企业 利用 大 数据 做 服务 转型 。 
e 转型 : 传统 企业 面临 互联 网 压力 ， 必 须 进行 转型 ， 充 分 利用 大 数据 的 价值 。 
大 数据 使 用 模型 ， 进 而 加 深 对 重要 用 户 的 洞察 力 ， 可 以 追踪 和 记录 其 网 络 行为 ， 识 别 
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业务 影响 ， 随 着 对 服务 利用 的 深刻 理解 ， 加 快 利润 增长 ， 同 时 跨 多 系统 收集 数据 ， 发 展 IT 
服务 目录 。 
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大 数据 从 采集 、 存 储 、 预 处 理 、 建 模 、 分 析 到 形成 结果 的 整个 过 程 ， 涉 及 感知 技术 、 
存储 技术 、 云 计算 技术 、 分 布 式 处 理 技术 等 。 建 模 分 析 技术 有 : 统计 学 、 数 据 挖 据 、 数 据 
科学 、 机 器 学 习 、 人 工 智能 等 。 大 数据 是 需要 新 处 理 模型 才能 具有 更 强 的 决策 力 、 洞 察 发 
现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 对 于 很 多 行业 而 言 ， 如 何 利 
用 这 些 大 规模 数据 是 赢得 竞争 的 关键 。 

本 书 的 重点 是 大 数据 分 析 ， 也 就 是 数据 挖掘 和 机 器 学 习 。 

本 书 定义 的 大 数据 的 相关 领域 学 科 关系 如 图 1-2 所 示 。 也 许 在 其 他 文献 或 书本 中 的 定义 
有 所 不 同 ， 这 是 信息 管理 的 现象 ， 没 有 完全 一 致 的 定义 ， 尤 其 是 一 些 机 构 每 给 出 一 个 新 的 
名 词 ， 就 希望 创建 更 前 沿 、 更 高 等 、 更 热门 的 名 词 、 学 科 或 产业 。 


图 1-2 大 数据 的 相关 领域 学 科 关系 图 


1.1.2 数据 挖掘 


数据 挖掘 (Data Mining) 一 般 是 指 从 大 量 的 数据 中 通过 算法 搜索 隐藏 于 其 中 信息 的 过 
程 。 数 据 挖 气 有 以 下 一 些 不 同 的 定义 。 

e “从 数据 中 提取 出 隐 含 的 过 去 未 知 的 有 价值 的 潜在 信息 。” 

e “一 门 从 大 量 数据 或 者 数据 库 中 提取 有 用 信息 的 科学 。” 

e “从 一 个 数据 集 提取 信息 ， 并 将 其 转换 成 可 理解 的 结构 ， 以 进一步 使 用 。” 

注意 这 几 个 关键 词 : 未 知 的 、 潜 在 的 、 可 理解 的 、 有 价值 的 、 有 用 的 信息 。 

数据 挖掘 是 数据 库 知 识 发 现 (Knowledge Discovery in Databases, KDD) 的 分 析 步 又。 
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该 术语 于 1989 年 出 现 ， 定 义 为 “从 数据 集中 识别 出 有 效 的 、 新 颖 的 、 潜 在 有 用 的 ， 以 及 可 
理解 的 模型 发 现 的 过 程 ”。 

数据 挖掘 的 理论 技术 可 分 为 传统 技术 与 改良 技术 两 支 。 传 统 技术 以 统计 分 析 为 代表 ， 
统计 学 内 所 含 时 间 序 列 、 概 率 论 、 回 归 分 析 、 类 别 数据 分 析 、 贝 叶 斯 分 类 等 都 属于 传统 数 
据 挖 掘 技术 ， 因 为 数据 挖掘 对 象 多 为 变量 繁多 的 数据 ， 所 以 高 等 统计 学 的 多 变量 分 析 、 用 
来 精简 变量 的 主 成 分 分 析 和 因子 分 析 、 用 来 分 类 的 逻辑 回归 和 判别 分 析 ， 以 及 用 来 区 隔 群 
体 的 聚 类 分 析 等 ， 多 用 在 数据 挖掘 分 析 方 面 。 在 改良 技术 方面 ， 应 用 的 有 决策 树 理论 、 支 
持 向 量 机 SVM、 随 机 森林 法 、 类 神经 网 络 、 关 联 规则 法 、 深 度 学 习 等 。 数 据 分 析 趋势 为 从 
大 型 数据 库 抓 取 所 需 数据 并 使 用 专属 计算 机 分 析 软 件 ， 数 据 挖掘 的 工具 更 符合 企业 需求 。 

数据 挖掘 方法 也 就 是 大 数据 分 析 方法 是 本 书 重 点 ， 下 面 简单 介绍 。 

(OD 分 类 方法 : 决策 树 (包括 ID3、C4.5、Cart) ， 朴 素 贝 叶 斯 法 ， 近 邻 法 ， 支 持 向 
量 机 。 

(2) 预测 方法 : 回归 树 ， 回 归 分 析 ， 时 间 序 列 。 

(3) 关联 规则 ，Apriori 算 法 。 

(4) 聚 类 分 析 : 层次 聚 类 ， 天 均值 ，EM 算 法 ，PAM 算 法 。 

(5) 复杂 数据 类 型 挖掘 : 文本 ， 网 络 ， 图 形 图 像 ， 视 频 ， 音 频 等 挖掘 与 判别 。 


1.1.3 ”数据 挖掘 标准 过 程 


跨行 业 数据 挖掘 标准 过 程 (Cross Industry Standard Process for Data Mining, CRISP- 
DM) 是 1997 年 欧盟 机 构 联 合 DaimlerChrysler AG. SPSS, NCR, Teradata, OHRA# Al IT 
发 的 ， 如 图 1-3 所 示 。CRISP 提 供 了 一 种 开放 的 、 可 自由 使 用 的 数据 挖掘 标准 过 程 ， 使 数据 
挖掘 适合 于 商业 或 研究 单位 的 问题 求解 策略 。CRISP-DM 具 有 产品 中 立 性 ， 使 用 上 并 不 受 
限于 特定 作业 平台 。 以 下 将 介绍 CRISP-DM 作 业 程 序 的 六 个 主要 步骤 。 

(1) 业务 了 解 (Business Understanding) : 理解 企业 需求 ， 主 要 是 以 企业 的 观点 ， 来 
找 出 推动 此 项 目的 目的 ， 在 此 步骤 前 要 先 定义 数据 探勘 问题 ， 并 且 制 订 初 步 计 划 方 案 。 决 
定 商业 目标 ， 形 势 评估 ， 决 定数 据 探勘 目标 ， 及 制订 一 个 项 目 计 划 。 

(2) 数据 理解 (Data Understanding) : 收集 数据 ， 了 解数 据 源 、 数 据 库 及 数据 仓储 、 
数据 特性 ， 并 对 收集 的 数据 做 初步 分 析 ， 包 括 识别 数据 的 质量 问题 、 数 据 的 安全 保护 、 找 
到 对 数据 的 基本 观察 ， 并 设立 假设 前 提 。 

(3) 数据 准备 〈Data Preparation) : 主要 为 筛选 数据 中 各 项 表格 、 记 录 以 及 变量 ， 接 
着 整理 筛选 出 来 的 数据 ， 应 用 于 模型 选择 工具 上 。 准 备 过 程 包 括 选择 变量 、 清 理 遗失 值 、 
重 构 〈 定 量 定 类 数值 ) 、 整 合 及 转换 〈 标 准 化 、 归 一 化 ) 数据 。 

(4) 创建 模型 (Modeling) : 这 是 数据 挖掘 中 最 引 人 注 意 的 地 方 ， 也 是 本 书 的 重点 ， 
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此 步骤 着 重 于 选择 并 应 用 一 种 或 多 种 数据 探勘 技术 ， 包 括 选择 模型 技巧 (算法 ) 、 训 练 数 
据 、 机 器 学 习 、 产 生 测试 计划 及 模型 评价 。 利 用 R 语 言 ， 选 择 程序 包 、 函 数 、 参 数 。 

C5) 评估 测试 (Evaluation) : 对 数据 探勘 的 结果 是 否 达到 商业 目标 做 评估 ， 包 括 评 
估 结 果 、 回 顾 数据 探勘 过 程 ， 主 要 为 测试 数据 分 析 结 果 ， 并 证 实 模型 是 否 符合 企业 所 推动 
方案 的 目的 ， 以 及 进一步 决定 将 来 是 否 继续 采用 此 模型 。 

(6) 决策 布 署 (Deployment) : 此 步骤 主要 是 经 评估 后 ， 若 所 建立 的 模型 符合 企业 
目标 ， 则 再 进一步 拟订 该 模型 的 推动 计划 。 着 重 于 将 新 知识 融会 到 每 天 的 商业 运作 过 程 
中 ， 从 而 解答 最 初 的 商业 问题 。 包 括 计 划 发 布 、 监 控 与 维护 、 产 生 最 终 报 告 ， 及 回顾 整个 
项 目 。 


6. 决 策 布 署 


CRISP-DM 如 今 已 经 成 为 大 数据 的 行业 标准 ， 调 查 显示 ，50% 以 上 的 数据 挖掘 采用 的 都 
是 CRISP-DM 的 数据 挖掘 流程 。CRISP-DM 不 只 是 应 用 在 数据 挖掘 ， 也 可 以 应 用 在 工程 或 
其 他 领域 的 项 目 中 。 

锻造 大 数据 考虑 CRISP 过 程 : 问题 种 类 ， 数 据 来 源 ， 数 据 类 型 ， 分 析 方法 ， 模 型 和 算 
法 ， 数 据 计算 〈 程 序 代码 、 函 数 包 或 平台 ) ， 信 息 结 果 ， 验 证 评价 ， 应 用 价值 。 


图 1-3 ”跨行 业 数据 挖掘 标准 过 程 
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如 表 1-1 所 示 为 CRISP-DM 中 六 个 主要 步骤 工作 项 目 及 产生 的 文档 。 


表 1-1 CRISP-DM 六 个 主要 步骤 工作 项 目 及 产生 的 文档 
业务 7 了解 | ”数据 理解 数据 准备 | ”创建 模型 | ”评估 测试 | 


验证 数据 质量 “| 格式 化 数据 


a 
初步 取得 工具 和 技术 数据 质量 报告 ”| 数据 转换 


数据 抽样 
训练 、 验 证 、 测 
试 数据 的 抽 祥 


1.1.4 机 器 学 习 


机 器 学 习 〈(Machine Learning) 是 一 门人 工 智 能 的 科学 〈 请 见 1.1.8 节 ) ， 该 领域 的 主 
要 研究 对 象 是 人 工 智能 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 。 机 器 学 习 理 论 主要 是 设计 
和 分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 算法 。 机 器 学 习 算 法 是 从 数据 中 自动 分 析 获 得 规 
律 ， 并 利用 规律 对 未 知 数据 进行 预测 的 算法 。 因 为 机 器 学 习 算 法 中 涉及 大 量 的 统计 学 理 
论 ， 尤 其 与 推断 统计 学 的 联系 密切 ， 所 以 也 被 称 为 统计 学 习 理论 。 机 器 学 习 的 分 析 方法 和 
数据 挖 气 有 很 多 相同 点 ， 可 以 这 样 说 : 机 器 学 习 是 从 学 习 的 观点 来 看 数据 挖掘 。 

机 器 学 习 已 广泛 应 用 于 数据 挖掘 、 计 算 机 视觉 、 自 然 语 言 处 理 、 生 物 特征 识别 、 搜 索 
引擎 、 医 学 诊断 、 检 测 信用 卡 欺诈、 证 券 市 场 分 析 、DNA 序 列 测序 、 语 音 和 手写 识别 、 战 
略 游戏 和 机 器 人 等 领域 。 

机 器 学 习 有 下 面 几 种 定义 。 

e “机 器 学 习 是 对 能 通过 经 验 自动 改进 的 计算 机 算法 的 研究 。” 

e “机 器 学 习 是 用 数据 或 以 往 的 经 验 ， 以 此 优化 计算 机 程序 的 性 能 标准 。” 


/ 估 语 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


e “一 个 计算 机 程序 ， 执 行 一 些 任务 (Task) ， 从 经 验 CExperience) 中 学 习 ， 改 进 
工作 衡量 的 绩效 (Performance) 。” 
4 机 器 学 习 的 任务 T) Æ: 分 类 、 回 归 、 关 联 或 聚 类 。 
4 机 器 学 习 的 经 验 (E) 是: 训练 和 验证 模型 。 
e 机 器 学 习 的 评价 绩效 CP) 是: 分 类 的 混 浠 矩阵， 回归 的 R 方 。 

机 器 学 习 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 
重新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 。 

机 器 学 习 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 ， 其 应 用 遍及 人 工 智能 
的 各 个 领域 ， 主 要 使 用 于 归纳 、 综 合 方面 。 

学 习 是 人 类 具有 的 一 种 重要 智能 行为 ， 学 习 策略 是 指 学 习 过 程 中 系统 所 采用 的 推理 
策略 。 一 个 学 习 系统 是 由 学 习 和 环境 两 部 分 组 成 的 。 由 环境 部 分 〈 如 书本 或 教师 ) 提供 信 
息 ， 学 习 部 分 (学 生 ) 则 实现 信息 转换 ， 用 能 够 理解 的 形式 记忆 下 来 ， 并 从 中 获取 有 用 的 
信息 。 在 学 习 过 程 中 ， 学 生 使 用 的 推理 越 少 ， 他 对 教师 的 依赖 就 越 大 ， 教 师 的 负担 也 就 越 
重 。 学 习 策略 的 分 类 标准 ， 是 根据 学 生 实现 信息 转换 所 需 的 推理 多 少 和 难 易 程度 来 分 类 
的 ， 有 以 下 七 种 学 习 类 型 。 

(1) HRF (Rote Learning) : 不 是 “机 器 ”学 习 ， 学 习 者 无 须 任 何 推理 或 其 他 的 
知识 转换 ， 直 接 吸 取 环境 所 提供 的 信息 。 例 如 ， 生 产 装 配 在 线 的 员工 。 

(2) 示 教 学 习 (Learning From Instruction 或 Learing by Being Told) : 学 生 从 环境 GÉ 
师 或 其 他 信息 源 如 教科 书 等 ) 获取 信息 ， 把 知识 转换 成 内 部 可 使 用 的 表示 形式 ， 并 将 新 的 
知识 和 原 有 知识 有 机 地 结合 为 一 体 。 所 以 要 求学 生 有 一 定 程 度 的 推理 能 力 ， 但 环境 仍 要 做 
大 量 的 工作 。 学 生 拥有 的 知识 可 以 不 断 地 增加 。 学 习 的 任务 就 是 建立 一 个 系统 ， 使 它 能 接 
受 教导 和 建议 ， 并 有 效 地 存储 和 应 用 学 到 的 知识 。 专 家 系统 在 建立 知识 库 时 使 用 这 种 方法 
去 实现 知识 获取 。 

G) 演绎 学 习 (Learning by Deduction) : 学 生 所 用 的 推理 形式 为 演绎 推理 。 推 理 从 
公理 出 发 ， 经 过 逻辑 变换 推导 出 结论 。 学 生 在 推理 过 程 中 可 以 获取 有 用 的 知识 。 演 绎 推理 
的 逆 过 程 是 归纳 推理 。 例 如 ， 数 理 统计 的 定理 证 明 。 

(4) BUA (Learning by Analogy) : 利用 两 个 不 同 领域 中 的 知识 相似 性 ， 可 以 通 
过 模拟 ， 从 源 域 的 知识 (包括 相似 的 特征 和 其 他 性 质 ) ， 推 导出 目标 域 的 相应 知识 ， 从 而 
实现 学 习 。 模 拟 学 习 系 统 可 以 使 一 个 已 有 的 计算 机 应 用 系统 转变 为 适应 于 新 的 领域 ， 来 完 
成 原先 没有 设计 的 相 类 似 的 功能 。 模 拟 学 习 需 要 比 上 述 三 种 学 习 方 式 进行 更 多 的 推理 。 在 
信息 管理 的 研究 中 ， 很 多 研究 者 将 技术 接受 模型 TAM 或 层级 分 析 AHP 用 模拟 学 习 应 用 到 其 
他 领域 。 

(5) 基于 解释 的 学 习 (Explanation-Based Learning, EBL) : 学 生根 据 教师 提供 的 目 
标 概念 、 目 标 概念 的 一 个 例子 、 领 域 理论 及 可 操作 准则 ， 首 先 构造 一 个 解释 来 说 明 为 什么 
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该 例子 满足 目标 概念 ， 然 后 将 解释 推广 为 目标 概念 的 一 个 满足 可 操作 准则 的 充分 条 件 。 
EBL 已 被 广泛 应 用 于 知识 库 求 精 和 改善 系统 的 性 能 。 

(6) 归纳 学 习 〈Leaming From Induction) : 归纳 学 习 是 由 教师 或 环境 提供 某 概念 的 一 
些 实例 或 反例 ， 让 学 生 通 过 归纳 推理 得 出 该 概念 的 一 般 描述 (所 谓 泛 化 ) 。 这 种 学 习 的 推 
理工 作 量 远 多 于 示 教 学 习 和 演绎 学 习 ， 因 为 环境 并 不 提供 泛 化 。 从 某 种 程度 上 说 ， 归 纳 学 
习 的 推理 量 也 比 模拟 学 习 大 ， 因 为 要 发 展 后 设 概念 ， 也 就 是 泛 化 。 机 器 学 习 的 验证 数据 就 
是 泛 化 。 归 纳 学 习 是 最 基本 的 ， 发 展 也 较为 成 熟 的 学 习 方法 。 

(7) 创新 学 习 〈Innovation Learning) : 科技 上 的 发 明 、 创 造 ， 除 了 经 验 ， 还 有 灵感 
和 顿悟 ， 是 一 种 跳跃 型 学 习 。 在 人 的 主观 作用 推动 下 产生 所 有 以 前 没有 的 设想 、 技 术 、 文 
化 、 商 业 或 者 社会 方面 的 关系 。 也 指 自然 科学 的 新 发 现 。 创 新 具有 某 种 不 可 预见 性 。 科 技 
创新 是 各 创新 主体 、 各 创新 要 素 交 互 作 用 下 的 一 种 复杂 涌现 现象 ， 是 技术 进步 与 应 用 创新 
所 构成 的 创新 双 螺旋 共同 演进 的 产物 。 大 多 数 的 创新 行为 都 是 未 经 计划 的 产物 ， 因 而 创新 
是 不 能 计划 的 。 

机 器 学 习 对 “经 验 ” 的 依赖 性 很 强 。 计 算 机 需要 不 断 从 解决 问题 的 经 验 中 获取 知识 和 
学 习 策 略 ， 在 遇 到 类 似 的 问题 时 ， 运 用 经 验 知识 解决 问题 并 积累 新 的 经 验 ， 我 们 可 以 将 这 
样 的 学 习 方 式 称 为 “连续 型 学 习 ”。 但 人 类 除了 会 从 经 验 中 学 习 之 外 ， 还 会 创造 ， 即 “ 跳 
跃 型 学 习 ”。 这 在 某 些 情形 下 被 称 为 “灵感 ”或 “顿悟 ”。 计 算 机 最 难 学 会 的 就 是 “ 顿 
悟 ”， 或 者 再 严格 一 些 来 说 ， 计 算 机 在 学 习 和 “实践 ”方面 ， 难 以 学 会 “不 依赖 于 量变 的 
质变 ”， 很 难 从 一 种 “ 质 ” 直 接 到 另 一 种 “ 质 ”， 或 者 从 一 个 “概念 ”直接 到 另 一 个 “ 概 
念 ”。 未 来 的 数据 分 析 要 给 计算 机 学 会 “创造 ”提供 学 习 的 方法 。 这 种 方法 为 人 的 “创造 
力 ” 的 模型 化 提供 了 一 种 有 效 的 途径 。 

机 器 学 习 的 学 习 形 式 分 类 如 下 。 

(1) KERFI (Supervised Learning) : 监督 式 学 习 从 给 定 的 训练 数据 样本 ， 学 习 
出 一 个 规则 或 函数 分 类 器 ) ， 当 新 的 数据 (记录 〉 到 来 时 ， 可 以 根据 这 个 规则 或 函数 预 
测 结果 。 监 督 式 学 习 的 数据 变量 有 自 变 量 ( 特 征 ) 和 目标 变量 。 监 督 式 学 习 算 法 主要 有 分 
类 和 预测 ， 包 括 回归 分 析 和 统计 分 类 。 

(2) 非 监督 式 学 习 (Unsupervised Learning) : 没有 目标 变量 ， 主 要 应 用 于 记录 或 实 
例 的 聚 类 、 变 量 的 关联 规则 、 变 量 的 降 维 。 

(3) 半 监 督 式 学 习 CSemi-supervised Learning) : 训练 预测 非 监督 式 的 目标 变量 值 ， 
再 监督 式 学 习 。 

(4) 强化 学 习 (Reinforcement Learning) : 强调 如 何 基于 环境 Cenvironment) 而 行动 
Caction) ， 以 取得 最 大 化 的 报酬 (reward) 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


1.1.5 ”知识 管理 


知识 管理 (Knowledge Management) 是 知识 的 分 类 和 转移 。 知 识 的 分 类 从 层级 来 分 
A: 数据 创建 信息 ， 信 息 挖掘 知识 ， 知 识 产生 智能 ， 智 能 创造 智慧 。 


信息 管理 数据 挖掘 机 器 学 习 强人 工 智能 
数据 — >” 信息 一 一 知识 —— — 智能 一 一 一 > 智慧 
Data Information Knowledge Intelligent Wisdom 
知识 的 分 类 有 许多 不 同 的 面向 ， 以 下 是 知识 管理 的 面向 。 
€) 内 隐 知 识 与 外 显 知识 
C1) 内 隐 知 识 (tacit knowledge) : 只 能 “ 意 会 ”的 个 人 的 知识 ， 例 如 ， 习 惯 、 典 
范 、 行 为 、 认 知 、 预 感 、 直 觉 等 主观 的 经 验 性 、 模 拟 性 、 情 境 特殊 性 的 知识 ， 无 法 以 言 
语文 字 表 达 ， 而 存在 于 意见 、 人 际 网 络 、 关 系 中 。 例 如 ， 如 何 骑 脚踏车 就 是 一 种 内 隐 知 
识 ， 外 科 医 师 的 手术 技术 、 面 包 师 传 赁 着 感觉 揉 面团 ， 也 是 内 隐 知 识 。 认 知 层面 心智 模式 
(mental model) 、 信 仰 (belief) 、 认 知 (perception) 、 心 得 等 ， 都 是 内 隐 知 识 。 
(2) 外 显 知识 (explicit knowledge) : 可 以 “言传 ”， 能 够 以 报告 、 分 析 、 手 册 、 实 
践 、 说 明 、 原 则 、 人 公式、 电子 邮件 、 程 序 等 表达 的 知识 ， 例 如 ， 专 利 、 项 目 报告 、 市 场 研 
究 报 告 、 计 算 机 程序 等 。 
@ 知识 领域 与 未 知 领域 
一 个 人 的 知识 领域 和 未 知 领域 ， 如 图 1-4 所 示 ， 包 括 如 下 内 容 。 


EATR 未 知 领域 
domain of irrelevance domain of ignorance 知识 (所 知 ) 领域 
domain of knowledge 


知 其 所 知 
known 
未 知 其 所 知 — küown 


unknown 
known 


图 1-4 知识 领域 


(1) 常识 (common sense) : 大 多 数 人 都 知道 的 《Things everybody know) 。 

(2) 知 其 所 知 (known known) : 知道 自己 了 解 的 外 显 知识 (Things you know you 
know) 。 

(3) 未 知 其 所 知 (unknown known) : 不 知道 自己 知道 的 内 隐 知 识 (Things you don’ t 
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know you know) 。 

(4) 知 其 未 知 (known unknown) : 知道 自己 有 不 懂 的 〈Things you know you don’ t 
know) 。 

(5) 未 知 其 未 知 Cunknown unknown) : 不 知道 自己 有 不 懂 的 (Things you don’ t 
know you don' tknow) 。 所 谓 “无知 ”还 包括 下 述 的 “错误 ”。 

(6) 错误 (error) : 以 为 自己 知道 ， 其 实 是 不 懂 的 (You think you know but don’ t) o 

(7) JE% (denial) : 觉得 太 痛苦 所 以 不 想 学 的 知识 〈Things too painful to know, so 
you don’ t) 。 

(8) 禁忌 (taboo) : 不 能 知道 的 知识 (Dangerous, polluting, or forbidden 
knowledge) . 

(9) 无 用 的 知识 〈useless) : 知 也 无 涯 ， 无 关 的 知识 太 多 了 。 

信息 、 智 能 扩大 已 知 领域 ， 学 习 未 知 领域 ， 改 变 错误 的 知识 ， 认 清 自 己 的 知识 领域 。 

© 知识 的 转移 

知识 的 转移 ， 如 图 1-5 所 示 。 


内 隐 知 识 到 外 显 知识 


共同 化 (共鸣 的 知识 ) 外 部 化 (观念 的 知识 ) 

内 隐 知 识 | 交谈 沟通 ”脑力 激荡 | 观念 架构 汇总 知识 
传授 练习 ”案例 讨论 | WHER 概念 表达 

从 


内 部 化 (操作 的 知识 ) 组 合 化 (系统 化 知识 ) 
外 显 知识 | 观摩 教育 举一反三 | 文件 学 习 ”因果 连接 
心得 创意 ”自由 意志 | 数据 挖掘 ”机 器 学 习 


图 1-5 知识 的 转移 


C1) 共同 化 《〈socialization) : 从 个 人 的 内 隐 知 识 转移 到 其 他 人 的 内 隐 知 识 。 主 要 是 流 
程 导向 的 know-how 知 识 和 广泛 地 创造 新 知识 。 即 CRISP 过 程 的 业务 了 解 。 

(2) 外 部 化 〈externalization) : 从 个 人 内 隐 知 识 转移 到 其 他 人 或 群 组 的 外 显 知识 。 主 
要 是 内 容 导 向 的 know-what 知 识 和 集中 地 吸收 新 知识 。 即 CRISP 过 程 的 数据 理解 和 准备 。 

(3) 组 合 化 〈combination) : 从 外 显 知识 转移 到 外 显 知识 。 内 容 导 向 的 know-what 知 
识 和 广泛 地 创造 新 知识 。 即 CRISP 过 程 的 创建 模型 和 评估 测试 。 

(4) 内 部 化 〈internalization) : 简称 内 化 ， 从 他 人 或 组 织 的 内 隐 知 识 转移 到 个 人 的 
内 隐 知 识 。 主 要 是 流程 导向 的 know-how 知 识 和 集中 地 吸收 新 知识 。 即 CRISP 过 程 的 决策 
MA o 
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知识 的 转移 可 以 从 个 人 到 群体 ， 而 且 是 循环 的 ， 从 共同 化 到 外 部 化 到 组 合 化 到 内 
部 化 。 
用 知识 转移 的 观念 来 说 明 机 器 学 习 的 过 程 ， 最 主要 是 抽象 化 和 泛 化 ， 如 图 1-6 所 示 。 


Shee 


未 知 其 未 知 HERA 知 其 所 知 未 知 其 所 知 。 ”评价 布 署 
共同 化 外 部 化 组 合 化 内 部 化 
了 解 问题 数据 了 解 创建 模型 预测 结果 


图 1-6 机 器 学 习 的 过 程 


C1) HAG (abstraction) : 机 器 学 习 的 建 模 ， 抽 象 化 的 知识 表达 有 : 数学 公式 、 关 
系 图 (如 网 络 图 、 树 图 ) 、 逻 辑 规则 Gfthen) 、 聚 类 图 。 简 单 地 说 ， 抽 象 化 就 是 建 模 。 

(2) ZW (generalization) : 运用 知识 推广 到 其 他 情境 ， 可 能 用 到 一 些 个 人 的 自由 意 
志 〔 内 隐 知 识 ) ， 举 一 反 三 学 习 新 规则 。 机 器 学 习 的 泛 化 是 用 测试 数据 来 评价 模型 。 简 单 
地 说 就 是 预测 。 


鲁 棒 性 ( 1.2.8 节 ) 是 泛 化 考虑 的 问题 。 
第 8 章 中 将 近邻 法 称 为 懒 情 学 习 ， 因 为 近邻 法 在 抽象 化 ( 建 模 ) 和 泛 化 (验证 ) 方 面 ， 
都 不 “努力 ”。 


对 应 机 器 学 习 的 过 程 如 图 1-6 所 示 。 


1.1.6 ”数据 科学 


数据 科学 (Data Science) 是 一 门 专门 的 学 科 〈 本 科 ) ， 研 究 数据 的 人 称 为 数据 科学 
家 ， 所 以 数据 科学 是 从 学 科 或 职业 的 角度 ， 来 看 数据 《包括 统计 学 ) 或 大 数据 。 

数据 科学 的 定义 为 :研究 探索 数据 界 奥秘 的 理论 、 方 法 和 技术 。 数 据 科 学 研究 数据 本 
身 ， 数 据 的 各 种 类 型 、 状 态 、 属 性 及 变化 形式 和 变化 规律 。 

数据 科学 已 经 有 一 些 方法 和 技术 ， 例 如 ， 数 据 采 集 、 数 据 存储 与 管理 、 数 据 安全 、 
数据 分 析 、 可 视 化 等 ， 还 需要 有 基础 理论 和 新 技术 ， 例 如 ， 数 据 存 在 性 、 数 据 测 度 、 时 
间 、 数 据 代数 、 数 据 相似 性 与 簇 论 、 数 据 分 类 与 数据 百科 全 书 、 数 据 伪 装 与 识别 、 数 据 实 
验 、 数 据 感知 等 。 数 据 学 的 理论 和 方法 将 改进 现 有 的 科学 研究 方法 ， 形 成 新 型 的 科学 研究 
方法 ， 并 且 针 对 各 个 研究 领域 开发 出 专门 的 理论 、 技 术 和 方法 ， 从 而 形成 专门 领域 的 数据 
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学 ， 例 如 ， 行 为 数据 学 、 生 命 数据 学 、 脑 数据 学 、 气 象 数 据 学、 金融 数据 学 、 地 理 数 据 
学 等 。 

从 以 上 的 说 明 可 知 ， 数 据 科 学 不 仅 是 一 个 学 科 ， 还 可 以 成 为 一 个 学 院 。 

数据 科学 需要 有 三 个 领域 的 知识 : 统计 演算 知识 ， 计 算 机 科学 知识 ， 产 业 专业 
知识 ， 如 图 1-7 所 示 。 前 两 者 是 技术 层面 ， 产 业 专 业 知识 就 是 领域 核心 知识 (domain 
knowledge) ， 大 数据 的 哲学 思想 。 危 险 区 域 是 只 懂得 计算 机 科学 知识 和 产业 专业 知识 ， 但 
是 缺乏 算法 的 逻辑 观念 ， 就 会 有 产生 错误 判断 的 危险 ， 如 图 1-7 所 示 。 机 器 学 习 是 要 有 统计 
演算 知识 和 计算 机 科学 知识 。 


图 1-7 数据 科学 是 跨 领域 的 学 科 
数据 科学 虽然 是 这 三 个 领域 的 交集 ， 实 际 上 是 要 包括 这 三 个 领域 的 知识 。 


1.1.7 ”商业 智能 


商业 智能 (Business Intelligence, BD ， 又 称 商 务 智 能 或 商业 智慧 ， 是 用 数据 仓库 技 
术 、 在 线 分 析 处 理 技术 、 数 据 挖掘 和 数据 展现 技术 ， 进 行 数据 分 析 以 实现 商业 价值 。 商 业 
智能 技术 提供 使 企业 迅速 分 析 数 据 的 技术 和 方法 ， 包 括 收集 、 管 理 和 分 析 数 据 ， 将 这 些 数 
据 转换 为 有 用 的 信息 。 

1958 年 ，IBM 将 “智能 ”定义 为 : “对 事物 相互 关系 的 一 种 理解 能 力 ， 并 依靠 这 种 能 
力 去 指导 决策 ， 以 达到 预期 的 目标 。”1989 年 ，Dresner 将 商业 智能 描述 为 : “使 用 基于 事 
实 的 决策 支持 系统 ， 来 改善 业务 决策 的 一 套 理论 与 方法 。”1996 年 ，Gartner 机 构 给 出 商业 
智能 定义 为 : “商业 智能 描述 一 系列 的 概念 和 方法 ， 通 过 应 用 基于 事实 的 支持 系统 来 辅助 
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商业 决策 的 制定 。” 

商业 智能 是 对 商业 信息 的 收集 、 管 理 和 分 析 过 程 ， 目 的 是 使 企业 的 各 级 决策 者 获得 知 
识 或 洞察 力 ， 促 使 他 们 做 出 对 企业 更 有 利 的 决策 。 商 业 智 能 一 般 由 数据 仓库 、 联 机 分 析 处 
理 、 数 据 挖掘 、 数 据 备份 和 恢复 等 部 分 组 成 。 

数据 仓库 (Data Warehouse) 和 数据 集 市 (Data Mart) 产品 ， 包 括 数 据 转换 、 管 理 和 存 
取 等 方面 的 预 配置 软件 ， 通 常 还 包括 一 些 业务 模型 ， 如 财务 分 析 模型 。 

BI 数据 处 理 大 致 可 以 分 成 两 大 类 : 联机 事务 处 理 (On-Line Transaction Processing, 
OLTP) 和 联机 分 析 处 理 (Online Analytical Process, OLAP) 。OLTP 是 传统 的 关系 型 数据 
库 的 主要 应 用 ， 主 要 是 基本 的 、 日 常 的 事务 处 理 ， 例 如 银行 交易 。OLAP 是 数据 仓库 系统 的 
主要 应 用 ， 支 持 复杂 的 分 析 操作 ， 侧 重 决 策 支 持 ， 并 且 提 供 直观 易 懂 的 查询 结果 。 

OLAP 的 概念 最 早 是 由 关系 数据 库 之 父 E.F.Codd 于 1993 年 提出 的 ， 他 同时 提出 了 关于 
OLAP 的 12 条 准则 。OLAP 的 提出 引起 了 很 大 的 反响 ，OLAP 同 OLTP 明 显 区 分 开 来 。OLAP 
工具 提供 多 维 数据 管理 环境 ， 其 典型 的 应 用 是 对 商业 问题 的 建 模 与 商业 数据 分 析 。OLAP 又 
被 称 为 多 维 分 析 。 在 Excel 中 称 为 数据 透视 表 枢纽 分 析 。 

OLAP 是 使 分 析 人 员 、 管 理 人 员 或 执行 人 员 能 够 从 多 角度 对 信息 进行 快速 、 一 致 、 交 互 
的 存 取 ， 从 而 获得 对 数据 的 更 深入 了 解 的 软件 技术 。OLAP 的 目标 是 满足 决策 支持 或 者 满足 
在 多 维 环境 下 特定 的 查询 和 报表 需求 ， 它 的 技术 核心 是 “ 维 ” 这 个 概念 。OLAP 的 数据 格式 
ERS EBA (array) ， 请 见 2.3.9 节 。 

OLAP 的 基本 多 维 分 析 操作 有 : 向 上 钻 取 、 向 下 钻 取 、 切 片 和 切 块 、 挖 掘 〈 跨 业务 维 
度 ) 、 透 视 、 排 序 、 筛 选 、 翻 阅 、 旋 转 等 。 钻 取 是 改变 维 的 层次 ， 向 上 钻 取 是 在 某 一 维 上 
将 低层 次 的 细节 数据 概括 到 高 层次 的 汇总 数据 ， 或 减少 维 数 ， 而 向 下 钻 取 则 相反 ， 它 从 汇 
总 数据 深入 到 细节 数据 进行 观察 或 增加 新 维 。 切 片 和 切 块 是 在 一 部 分 维 上 选 定 值 后， 关心 
度量 数据 在 其 他 维 上 的 分 布 。 如 果 其 他 的 维 只 有 两 个 ， 则 是 切片 ， 如果 有 三 个 ， 则 是 切 
块 。 旋 转 是 变换 维 的 方向 ， 即 在 表格 中 重新 安排 维 的 放置 (例如 行列 互 换 ) 。OLAP 可 用 于 
提供 关于 绩效 的 基本 详细 人 信息， 抽取、 和 转换、 搜集 数据 。 

商业 智能 用 的 工具 还 有 记分 卡 、 仪 表 板 、 企 业 报告 、 预 测 分 析 、 通 知 警 报 、 数 据 挖掘 
和 在 线 分 析 等 ， 允 许 用 户 容易 地 从 多 个 角度 选取 和 查看 数据 。 

商业 智能 企业 导入 优点 : 

随机 查询 动态 报表 ; 

@) 掌 握 指标 管理 ; 

图 随时 在 线 分 析 处 理 ; 

@ 可 视 化 的 企业 仪表 板 ; 

@ 协 助 预测 规划 。 
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1.1.8 人工 智能 

Q 人 工 智 能 的 定义 

人 工 智能 (Artificial Intelligence, AD 是 关于 智能 的 学 科 ， 是 研究 怎样 表示 智能 以 及 怎 
样 获 得 智能 并 使 用 智能 的 科学 。 


人 工 智 能 是 研究 如 何 使 计算 机 去 做 过 去 只 有 人 类 才能 做 的 智能 工作 ， 研 究 、 开 发 用 于 
模拟 、 延 伸 和 扩展 人 的 智能 的 理论 、 方 法 、 技 术 及 应 用 系统 的 一 门 新 的 技术 科学 。 

人 工 智 能 企图 了 解 智能 的 实质 ， 并 生产 出 一 种 能 以 人 类 智能 相似 的 方式 做 出 反应 的 智 
能 机 器 ， 该 领域 的 研究 包括 机 器 人 、 语 言 识别 、 图 像 识别 、 自 然 语 言 处 理 和 专家 系统 等 。 
人 工 智能 可 以 对 人 的 意识 、 思 维 的 信息 过 程 进行 模拟 。 

人 工 智能 是 研究 使 计算 机 来 模拟 人 的 某 些 思维 过 程 和 智能 行为 《如 学 习 、 推 理 、 思 
考 、 规 划 等 ) 的 学 科 ， 主 要 包括 计算 机 实现 智能 的 原理 、 制 造 类 似 于 人 脑 智 能 的 计算 机 ， 
使 计算 机 能 实现 更 高 层次 的 应 用 。 

O 人 工 智 能 简 史 

1950 年 : 图 灵 测试 。 测 试 者 向 被 测试 者 〈 人 或 机 器 ) 询问 问题 ， 如 果 有 超过 30% 
的 测试 者 无 法 确认 被 测试 者 是 机 器 ， 则 该 机 器 被 认为 具有 人 类 智能 。 图 灵 奖 是 以 图 灵 
CTuring) 为 名 。 

1956 年 : 达 特 茅 斯 会 议 AI 的 诞生 。 

1950 一 1970 年 : 符号 主义 ， 推 理 系统 。 

1970 一 1980 年 : AI 之 冬 。 

1980 一 1987 年 : 专家 系统 〈 如 医疗 专家 系统 ) 。 

1987 一 1993 年 : 第 二 次 AI 之 冬 ， 对 专家 系统 的 失望 。 

1980 一 2000 年 : 统计 学 习 ， 机 器 学 习 ( 数 据 挖掘 ) ， 神 经 网 络 ， 遗 传 演算 。 

2006 年 至 今 : 大 数据 的 计算 能 力 ，AlphaGo 围 棋 比 赛 ， 深 度 学 习 。 

© 人 工 智能 的 理论 体系 和 技术 体系 

人 工 智 能 理论 体系 : 哲学 、 数 学 、 计 算 机 科学 与 工程 、 心 理学 、 经 济 学 、 数 理 罗 辑 、 
神经 科学 、 信 息 论 、 控 制 论 、 仿 生 学 、 生 物 学 、 语 言 学 等 多 门 学 科 。 

人 工 智 能 技术 体系 : 机 器 学 习 算法 、 机 器 学 习 架 构 、 自 然 语言 理解 、 计 算 机 视觉 、 
智能 机 器 人 、 知 识 表示 、 自 动 推理 、 智 能 搜索 、 自 动 程序 设计 等 方面 。 另 外 还 有 : 机 器 视 
觉 ， 指 纹 识别 ， 人 脸 识 别 ， 视 网 膜 识别 ， 虹 膜 识别 ， 掌 纹 识别 ， 感 知 问题 ， 模 式 识别 ， 逻 
辑 推理 程序 设计 ， 智 能 控制 ， 软 计算 ， 不 精确 和 不 确定 的 管理 ， 神 经 网 络 ， 遗 传 算法 。 

O 人 工 智 能 实际 应 用 

例如 ， 机 器 学 习 ， 神 经 网 络 ， 深 度 学 习 ， 文 本 挖掘 ， 自 动 规划 ， 智 能 搜索 ， 定 理 证 
YW, ADP Ri, BAH, DEAS, BANA, WEP, Aas 
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驶 ， 互 联网 和 移动 互联 网 的 应 用 。 

早期 的 专家 系统 ， 现 在 进步 的 AI 应 用 : 智能 金融 ， 智 能 医疗 ， 游 戏 博弈 ， 家 用 机 器 人 
和 服务 机 器 人 ， 智 能 制造 业 ， 人 工 智能 辅助 教育 ， 智 能 农业 ， 智 能 新 闻 写作 ， 机 器 翻译 ， 
机 器 仿生 ， 智 能 律师 助理 ， 人 工 智能 驱动 的 娱乐 业 ， 人 工 智 能 艺术 创作 ， 智 能 客服 ， 智 能 
国防 ， 智 能 审计 ， 智 能 营销 等 。 

GA 的 其 他 问题 

例如 ， 伦 理 、 法 律 、 社 会 、 产 业 、 教 育 和 人 类 的 问题 。 

由 上 述 可 知 ，AI 的 理论 技术 和 应 用 领域 范围 太 广 ， 学 习 AI 要 找到 一 个 利 基 市 场 。 人 工 
智能 最 关键 的 难题 ， 还 是 机 器 的 自主 创造 性 思维 能 力 的 塑造 与 提升 。 

Q AI 的 类 型 

Russell 2016 将 AI 分 为 两 个 方面 ， 四 种 类 型 。 虽 然 这 些 类 型 的 界线 正在 逐渐 整合 和 
模糊 。 

AI 目的 方面 

e 行动 (Acting) : 行为 的 过 程 ， 学 习 、 感 知 、 决 策 ， 弱 人 工 智能 (weak AD , EA 

主意 识 。 

e 思考 (Thinking) : 思考 的 过 程 ， 有 创意 和 情感 ， 所 谓 强 人 工 智能 (strong AI) 。 

AI 绩效 方面 

e 人 性 化 (Humanly〉: 验证 科学 (包括 观察 和 假设 ) ， 归 纳 法 容许 错误 。 

e 理性 化 (Rationally〉 : 用 数学 和 工程 寻找 正确 的 答案 ， 演 译 法 证 明 结 论 。 

上 述 两 个 方面 ， 四 种 AI 的 类 型 ， 如 图 1-8 所 示 。 


1. 人 性 化 行动 4. 理性 化 行动 
2. 人 性 化 思考 


性 化 
a [oneee [o eee 


图 1-8 AI 的 类 型 


COD 人 性 化 行动 : 图 灵 测 试 Curing test) 的 方式 

图 灵 测 试 是 AI 的 行为 ， 使 人 无 法 辨别 是 机 器 还 是 人 的 行为 。AI 的 人 性 化 行动 ， 几 乎 包 
括 多 数 的 AI 领域 。 

e 自然 语言 处 理 : 能 够 处 理 和 沟通 人 类 的 语言 。 
知识 表达 : 感知 存储 视听 ， 可 以 写 歌词 作 诗 。 
机 器 学 习 : 根据 情况 〈 数 据 ) ， 侦 测 和 探索 模式 ， 自 动 化 推论 、 深 度 学习 。 
计算 机 视觉 :辨识 视听 结果 ， 语 音 识 别 、 人 脸 识别 、 动 作 识别 。 
自动 化 推理 : 存储 信息 回答 问题 ， 得 到 新 的 结论 。 
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e 机 器 人 : 操作 与 移动 机 器 ， 无 人 驾驶 。 

(2) 人 性 化 思考 : 认 知 模型 (cognitive modeling) 的 方式 

认 知 模型 可 以 说 是 “人 心 ”的 意思 ， 人 的 心脏 (heart) 没有 思考 能 力 ， 人 心 (mind) 
是 人 的 情感 。 如 果 能 充分 了 解 人 的 心智 想法 ， 就 可 以 用 计算 机 程序 表达 。 人 性 化 思考 有 三 
种 方式 : 

e 通过 内 省 :尝试 抓 住 “ 想 法 ”的 进行 。 

e 心理 实验 : 观察 人 的 行动 和 心理 状态 。 

e 大 脑 的 想象 : 神经 生理 学 ， 观 察 大 脑 的 行动 。 

(3) 理性 化 思考 : 思考 法 则 Claws of thought) 的 方式 

思考 的 法 则 理论 有 哲学 的 逻辑 ， 符 号 主义 ， 推 论 系 统 。 人 和 计算 机 不 可 能 完全 理 
性 化 。 

e 数学 证 明 或 发 展 新 理论 。 

(4) 理性 化 行动 : 合理 化 代理 〈rational agent) 的 方式 

e 智能 代理 : 智能 体 ， 处 理 查询 并 返回 结果 的 软件 。 应 用 于 金融 、 医 学 、 管 理 。 

e HRTF: 西洋 棋 或 围棋 (AlphaGo 战胜 人 类 对 手 ) 。 


Russell 2016 和 Poole 2017 的 人 工 智 能 Al 是 基于 智能 代理 的 理论 。 

Al 领域 的 应 用 ， 可 以 考虑 CRISP 过 程 : 问题 种 类 ， 数 据 来 源 ， 数 据 类 型 (是 否 大 数 
jg? )， 模 型 和 算法 ， 数 据 计 算 (程序 代码 、 函 数 包 或 平台 )， 信 息 结 果 ， 验 证 评价 ， 应 
用 价值 。 

人 类 的 神童 是 记忆 能 力 超 强 、 计 算 (心算 ) 能 力 超 强 ， 还 是 思考 能 力 超 强 ? 

计算 机 有 前 两 项 能 力 ， 在 AI 方面 如 何 超越 人 的 思考 能 力 ? 


1.1.9 统计 学 与 大 数据 比较 


统计 学 分 析 的 过 程 如 图 1-9 所 示 。 
问题 > 总 体 > 变量 > 参数 > 抽样 > 随机 > 统计 量 > 建 模 > 结论 > 价值 
目标 “定义 ”未知 ”概率 论 变量 D AE 样本 数据 决策 
误 


图 1-9 统计 学 分 析 的 过 程 
大 数据 分 析 的 过 程 如 图 1-10 所 示 。 
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问题 > 数据 > 变量 > 基于 测量 《数据 ?> 建 模 ?> 训练 > 验证 > 测试 > 结论 
目标 “定义 (概率 , 信息 , 相似 ) 预 处 理 参数 数据 We 评价 应 用 
(误差 , 代数 , 生物 ) 


图 1-10 大 数据 分 析 的 过 程 


统计 学 和 大 数据 的 比较 如 表 1-2 所 示 。 

表 1-2 统计 学 和 大 数据 的 比较 
传统 统计 学 mm 大 数据 
黑板 统计 学 统计 学 数据 挖掘， 统计 学 习 
数据 的 关联 规则 、 聚 类 规则 (关系 ) ， 分 

估计 和 检验 总 体 的 参数 和 预测 类 规则 、 预 测 规则 《因果 ) 
pug CORE JRERHNRARA, SARR RIN, REX. RAR, IR, XK 
假设 ， 再 作 检验 1.3.3 节 ) Wir. ROS. HUM 


总 体 ， 抽 样 的 样本 ， 大 约 1000 多 个 样本 即 可 | 所 有 数据 ， 样 本 = 总 体 ， 
数据 变量 | 变量; 定 类 、 定 序 、 定 距 尺 度 的 数据 ， 结 构 化 | 变量 : 定 类 、 定 序 、 定 距 尺度 的 数据 ， 及 
文本 非 结 构 化 数据 


数据 
样 样本 数据 ， 推 论 的 根据 训练 数据 、 验 证 数据 、 测 试 数据 
来 市 场 调查 、 产 品 抽查 、 控 制 实验 数据 库 、 数 据 仓 储 、 网 络 数据 
原 
Jk 


* 
= : 
以 样本 〈 小 量 ) 的 数据 ， 利 用 随机 变量 抽样 误 | 没有 随机 变量 抽样 误差 ， 有 训练 误差 〈 偏 
理 | 差 的 理论 ， 达 成 精确 度 高 的 推论 ， 例 如 估计 的 | 差 ) 、 验 证 误差 、 测试 误差 方差) ， 过 
置信 度 和 检验 的 p 值 合 问题 
法 
数 


方 基于 概率 、 人 信息、 误差、 代数 、 距 离 相 
样 误差 似 、 生 物 等 理论 (1.3.5 节 )》 


动 | 模型 驱动 数据 数据 驱动 模型 


总 体 参数 : 均值 、 方 差 、 比 例 、 回 归 系数 ， 估 处 理 模型 的 参数 ，1.2.7 节 的 P 参 数 ， 超 参 


计 检 验 的 对 象 T 
模型 输出 的 参数 ，1.2.7 节 的 0 参数 P e qur 


检查 数据 是 否 符合 假定 条 件 : 
变量 独立 ， 正 态 分 布 ， 方 差 相 等 。 避 免 非 抽样 
误差 ; 


基于 概率 理论 (参数 的 统计 量 随机 变量 ) ， 抽 


参 


数据 可 视 化 ， 描 述 统计 (summary) 
数据 转换 : 标准 化 与 正规 化 〈4.2.2 节 ) 
分 箱 (10.2.8 节 ) 

《大 话 统计 学 》1.4 节 

《大 话 统计 学 》16.2 节 数据 归 约 : 变量 降 维 (第 5 章 ) 
复杂 公式 如 : BAM. f 
态 、 峰 态 公式 等 请 见 《 大 | 模型 求解 有 多 个 算法 ， 有 程序 包 有 的 模型 
话 统计 学 》， 算法 ， 当 作 黑 箱 〈1.2.2 节 ) ， 调用 机 器 学 
自助 估计 法 〈6.2.2 节 ) 习 包 


没有 黑箱 模型 


概率 表 ， 检 验 临界 
值 表 小 型 计算 器 


了 PC 统计 软件 ，SPSS， 
《大 话 统计 学 》: 中 文 统 
计 


大 型 计算 机 或 分 布 式 处 理 ， R，Python 语 
言 ， 机 器 学 习 包 (或 平台 ) 


1.1.10 ”数据 名 词 的 定义 


数据 的 名 词 定义 如 图 1-11 所 示 。 


列 Ccolumn) 

变量 (variable) 统计 学 

维 (dimension) 数学 , 商业 智能 

栏 ,字段 (eld) 数据 库 

属性 Cattribute) 数据 挖掘 X X 
EGE (feature) 机 器 学 习 ý 

项 目 (item) 关联 规则 

字段 (word) 文本 探勘 Xs 


预测 变量 (predictor) ”监督 式 学 习 
目标 变量 监督 式 学 习 (有 标记 》 
Y 


d 
因 变 量 m 
响应 变量 o x, 
分 类 (因子 ) 
FÌ Xx, 


标记 
e 整数 非 监督 式 学 习 〈 无 标记 ) 


ff (row) 

记录 (record) 
实例 (instance) 
事务 (transaction) | 1 
对 象 (object) 2 
案例 Cease) 3 
样本 (sample) 

WE Cobservation) 
例子 Cexample) 
数据 点 (datapoint) | p 


标识 
pI % X 


图 1-11 数据 名 词 定义 
将 大 数据 的 重点 名 词 画 成 大 数据 R 语 言词 云图 ， 如 图 1-12 所 示 。 


图 1-12 大 数据 R 语 言词 云图 


R 程 序 代码 请 见 本 章 附录 。 


> 
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QD asenne | 


本 节 介 绍 的 系统 与 模型 的 概念 ， 包 括 : 系统 定义 ， 系 统 成 分 〈 目 标 、 实 体 、 属 性 、 活 
动 ) ， 一 般 系 统 〈 输 入 、 处 理 、 输 出 ) ， 环 境 ， 反 馈 ， 黑 箱 ， 模 型 ， 假 定 和 参数 ， 还 有 敏感 
性 、 稳 健 性 、 鲁 棒 性 、 过 拟 合 。AI 的 知识 图 谱 (Knowledge Graph) 可 以 从 系统 概念 开始 。 


1.2.1 系统 定义 与 成 分 


AB (system) 是 一 个 很 普遍 的 名 词 ， 在 生活 中 或 学 术 中 无 处 不 在 。 例 如 ， 教 育 系 
统 、 人 体系 统 、 神 经 系统 、 语 言 系统 、 经 济 系统 等 。 在 经 济 系统 中 ， 以 物品 和 服务 来 交换 
相等 价值 的 物品 与 服务 ， 而 且 利用 良好 的 经 济 系统 ， 多 数 人 能 获得 利益 或 满足 需要 。 

系统 有 许多 不 同 的 定义 ， 比 较 通 常 的 定义 是 : 一 些 相 关 的 人 、 事 、 物 、 观 念 或 活动 ， 
有 其 共同 的 目标 ， 形 成 一 个 逻辑 性 、 概 念 性 或 功能 性 的 组 合 。 

本 书 要 研究 的 系统 是 数据 系统 。 

系统 有 下 列 四 个 成 分 。 

(1) 目标 〈objective) : 系统 要 达到 的 目标 ， 数 据 系统 的 目标 是 价值 。 

(2) 实体 Centity) : 企业 系统 的 实体 是 资源 ， 数 据 系统 的 实体 是 对 象 、 记 录 、 
实例 。 

(3) 属性 〈attribute) : 实体 的 性 质 或 观念 ， 例 如 ， 实 体 的 数量 、 质 量 、 数 据 〈 信 
RO 、 观 念 〈 文 化 ) 、 技 术 、 状 态 、 关 系 、 结 构 、 因 果 等 。 数 据 系统 的 属性 是 “变量 ”， 
以 数据 的 属性 为 主 ， 去 分 析 信 息 系 统 。 

(4) 活动 〈activity) : 属性 的 变化 过 程 ， 例 如 ， 行 动 、 过 程 、 规 划 、 组 织 、 控 制 。 数 
据 系 统 的 活动 是 建 模 、 分 析 、 评 价 。 

信息 系统 分 析 中 ， 面 向 对 象 分 析 (Object-Oriented Analysis) 的 对 象 的 定义 是 :对象 是 
系统 中 特定 实体 (entity: 如 汽车 ， 订 购 单 ) 或 有 意义 的 概念 (如 会 计 科目 ) ， 本 身 存 有 
一 组 信息 来 表示 对 象 的 现 况 属性， 状态 ) ， 同 时 拥有 一 组 属于 该 对 象 的 行为 (活动 或 操 
JE) ， 可 改变 此 对 象 的 现 况 。 

信息 在 实体 世界 中 是 属性 ， 在 虚拟 〈 数 字 ) 世界 中 是 主体 ， 说 明了 从 不 同 角度 看 系 
统 ， 有 不 同 的 叙述 。 管 理 ， 除 了 目标 决定 很 重要 ， 活 动 的 选择 就 是 策略 的 决策 。 

统计 学 的 目的 《目标 ) 有 以 下 四 个 。 参 考 《 大 话 统计 学 》 第 1 章 。 

(1) 了 解 现象 : 描述 统计 是 了 解数 据 的 呈现 与 性 质 。 

(2) 推测 总 体 : 统计 检验 和 估计 是 推测 总 体 。 

G) 知道 因果 : 两 个 总 体检 验 、 方 差分 析 、 回 归 分 析 是 知道 因果 。 
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(4) 预测 未 来 :时 间 序列 是 预测 未 来 。 

大 数据 的 目的 同上 ， 除 了 第 2 项 改 为 : 推测 总 体 数据 的 结构 。 
电子 商务 的 商业 模型 有 以 下 四 大 元 素 〈 对 照 1.1.1 节 中 的 IT 价值 ) 。 
(1) 顾客 价值 定位 : 顾客 价值 成 长 与 平台 。 

(2) 利润 公式 : 商业 成 长 。 

G) KAR: 商业 经 营 。 

(4) 关键 过 程 ; 商业 转型 。 

前 两 项 是 目标 ， 第 3 项 是 实体 和 属性 ， 第 4 项 是 活动 。 


1.2.2 ” 输入， 处理， 输出 与 黑箱 


系统 通常 有 输入 (input) ， 处 理 Cprocess) 和 输出 〈output) 。 系 统 实体 的 相互 关系 与 
活动 ， 形 成 一 个 转换 处 理 ， 将 输入 转换 成 输出 ， 而 达到 系统 目标 。 

信息 系统 的 输入 、 处 理 、 输 出 ， 如 图 1-13 所 示 。 在 这 个 图 中 ， 除 了 输入 、 处 理 、 输 
出 以 外 ， 还 有 目标 、 反 馈 与 控制 、 数 据 与 信息 、5W1H (Why, What, Who, When, 
Where, How) ， 以 及 计划 执行 考核 行动 〈 全 面 质量 管理 的 PDCA) o 


计划 Plan 执行 Do 


目标 /目的 
信息 Objective 
Information 


知识 Knowledge 
智能 Intelligent 
决策 Decision 


计算 机 | Computer 


评估 考核 
Much 1 t-if Check 
Feedback 反馈 控制 Control 


图 1-13 ”信息 系统 的 输入 、 处 理 、 输 出 


黑箱 或 黑 盒 (Black Box) ， 指 一 个 只 知道 输入 输出 关系 而 不 知道 内 部 结构 的 系统 或 
设备 。 与 之 相反 的 是 白 箱 。 如 果 系 统 的 输入 和 输出 已 知 ， 但 是 其 处 理 转换 过 程 没有 定义 ， 
则 称 这 个 系统 为 黑箱 。 黑 箱 的 概念 应 用 于 信息 系统 分 析 与 设计 ， 可 以 先 将 一 些 子 系统 当 作 
黑箱 ， 例 如 ， 已 经 设计 好 的 模块 或 暂时 不 要 分 析 的 子 系统 ， 会 使 分 析 工 作 更 容易 一 点 儿 。 
对 于 有 些 管理 人 员 或 决策 者 ， 有 些 系统 (如 专家 系统 ) 或 模型 〈 如 数量 模型 或 决策 支持 系 
统 ) ， 只 要 知道 其 输入 的 是 哪些 数据 ， 输 出 的 信息 有 什么 意义 ， 至 于 其 处 理 过 程 不 一 定 要 
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非常 清楚 ， 就 可 以 把 它 当 作 黑箱 。 黑 箱 的 概念 可 使 事情 简化 。 科 技 顾问 、 软 件 公 司 ， 如 果 
只 重视 输入 输出 的 包装 ， 例 如 ， 很 亲切 的 图 形 用 户 接口 ， 而 其 黑箱 的 处 理 没有 达到 效率 或 
效果 ， 而 且 不 让 顾客 学 习 技术 ， 或 修改 其 处 理 过 程 ， 这 种 黑箱 是 不 好 的 。 

有 人 说 “接口 都 封装 好 了 ， 调 个 包 就 行 ”， 意 思 是 : 将 程序 “ 包 ” 封 装 成 黑箱 ， 只 要 
知道 输入 的 接口 就 行 。 

学 习 是 不 同 层次 的 黑箱 ， 例 如 ， 支 持 向 量 机 分 类 法 ， 你 要 懂得 支持 向 量 机 的 概念 如 
超 平面 与 支持 向 量 ， 那 是 白 箱 ;然后 是 核 函 数 的 概念 ， 那 是 灰 箱 ; 最 后 是 支持 向 量 机 的 算 
法 ， 如 对 偶 题 和 拉 格 朗 日 函数 ， 对 于 有 些 人 来 说 ， 那 是 黑箱 ， 如 图 1-14 所 示 。 算 法 程序 设 
计 一 定 要 打开 黑箱 ， 否 则 就 用 “ 包 ”。 


数据 的 黑箱 算法 的 黑箱 


学 习 有 不 同 层次 的 黑箱 
图 1-14 黑箱 与 学 习 层 次 


1.2.8 ”环境 


系统 的 环境 (environment) 用 于 回答 以 下 两 个 问题 。 

第 一 个 问题 ， 这 个 事物 对 系统 目标 是 否 重要 或 有 影响 ? 

第 二 个 问题 ， 系 统 分 析 师 (或 系统 决策 者 ) 是 否 能 够 影响 这 个 事物 ? 

如 果 第 一 个 问题 的 答案 是 肯定 的 ， 而 第 二 个 问题 的 答案 是 否定 的 ， 则 这 个 事物 是 系统 
的 环境 。 换 句 话说 ， 环 境 因素 是 : 会 影响 系统 的 目标 ; @ 系 统 对 这 些 因素 的 控制 能 力 是 
有 限 的 或 根本 无 法 控制 。 企 业 的 高 阶 策略 管理 ， 主 要 是 能 够 进行 环境 侦 测 ， 其 重点 是 : @ 找 
出 环境 中 的 关键 变量 ，@@ 这 些 变量 是 否 变动 ? 变动 方向 如 何 ? 变动 速度 多 快 ? 图 是 否 应 计 
划 行 动 方案 ， 以 应 付 变动 ? 环境 变动 程度 越 大 ， 越 需要 环境 侦 测 ， 而 需要 信息 处 理 的 能 力 
越 高 、 越 快速 。 环 境 侦 测 是 企业 策略 规划 的 重要 一 环 。 

系统 环境 是 无 法 控制 的 ， 所 以 要 针对 其 变化 ， 采 取 应 变 措施 。 现 代 企业 不 应 该 只 是 
适应 快速 变迁 的 环境 ， 而 是 要 专注 地 开创 新 机 会 、 新 环境 。 环 境 的 变化 当然 会 影响 到 系统 


z0: 


边界 的 变化 ， 环 境 变化 很 大 的 话 ， 可 能 使 系统 消失 。 换 言 之 ， 环 境 变化 可 能 使 企业 失败 或 
消失 。 

学 习 和 训练 的 差别 是 : 学 习 系 统 的 目标 价值 是 学 习 者 ， 环 境 是 老师 和 书本 。 训 练 系统 
的 目标 价值 是 训练 者 (老板 、 驯 兽 师 )， 不 是 被 训练 者 工人、 动物 ) ， 当 被 训练 者 训练 
完成 ， 就 不 再 成 长 ， 而 学 习 者 是 主动 地 学 习 ， 不 断 地 成 长 ， 这 就 是 智能 。 


1.2.4 反馈 


通常 系统 都 要 有 反馈 (Feedback) 过 程 ， 反 馈 是 为 了 确保 系统 的 正确 操作 ， 相 当 于 管 
理学 中 的 控制 功能 。 系 统 的 反馈 ， 有 下 列 四 个 步骤 。 

(1) 根据 系统 目标 定 出 可 接受 的 输出 标准 ， 计 划 要 改善 的 项 目 。 

(2) 设 定 衡量 输出 的 方法 与 绩效 指标 ， 执 行 改革 项 目 。 

G) 比较 实际 输出 与 标准 ， 检 查 项 目 改善 成 效 。 

(4) 采取 改进 的 行动 。 如 果 成 效 显著 ， 将 改革 结果 变 成 新 的 作业 标准 。 

这 四 个 步 又， 相当 于 全 面 质量 管理 的 P (Plan， 计 划 ) . D (Do， 执 行 ) C (Check, 
检查 ) ~ A 〈Action， 行 动 ) 的 循环 。 

最 早 的 人 工 智能 系统 的 温度 控制 就 是 系统 反馈 。 

机 器 学 习 的 验证 集 和 评价 ， 第 6 章 介绍 的 模型 评价 与 选择 ， 就 是 反馈 。 


1.2.5 效率 与 效果 


每 个 系统 最 重要 的 问题 是 ， 如 何 去 评 估 衡 量 系 统 的 绩效 。 系 统 观念 建议 两 个 主要 的 绩 
效 衡量 : 一 个 是 效果 (effectiveness) ， 另 一 个 是 效率 (efficiency) 。 

引用 管理 学 者 Warren Bennis 的 话 来 说 明 效 率 与 效果 的 差别 : “管理 者 做 正确 的 方法 ， 
领导 者 做 正确 的 事 。” (Managers do things right. Leaders do the right thing.) 。 效 率 是 做 
正确 的 方法 (Do things right.) ， 效 果 是 做 正确 的 事 (Do the right thing.) 。 炸 鸡 店 的 口号 
“We do chicken right” 意思 是 “我 们 做 鸡肉 的 方法 是 对 的 ”。 

效果 是 衡量 系统 的 输出 达成 目标 的 程度 ， 因 为 输出 代表 系统 存在 的 理由 ， 要 有 效果 就 
是 要 做 出 正确 的 结果 。 以 生产 系统 来 说 ， 效 果 是 生产 正确 需要 的 产品 。 效 率 是 衡量 系统 如 
何 使 用 最 少 的 输入 来 达到 最 大 的 输出 。 效 果 是 正确 的 生产 方式 ， 效 果 是 正确 的 生产 结果 。 
效果 是 决定 做 什么 (what) ， 效 率 是 决定 如 何 做 Chow) 。 如 果 生 产 方 针 〈 效 果 ) FET, 
生产 (效率 ) 再 好 、 再 省 钱 也 没有 用 。 

大 数据 的 分 析 模 型 或 算法 ， 效 率 是 计算 的 快速 ， 例 如 ， 关 联 分 析 的 Apriori 计 算 频 繁 项 
集 和 关联 规则 。 而 FP 算法 或 Eclat 算 法 ， 如 果 比 较 快 但 计算 结果 相同 ， 这 就 是 效率 。 效 果 是 
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计算 结果 的 正确 性 ， 例 如 ， 准 确 结果 的 分 类 ， 较 好 的 聚 类 分 群 ， 有 价值 意义 的 规则 ， 正 确 
的 预测 结果 。 


1.2.0 ”模型 与 建 模 


系统 方法 重要 的 是 建立 模型 (Model) ， 简 称 建 模 。 因 为 真实 系统 通常 是 错综复杂 的 ， 
不 能 重复 实验 的 ， 或 者 是 未 知 的 。 所 以 ， 我 们 要 先 在 模型 上 研究 出 最 好 或 较 好 的 决策 方 
案 ， 然 后 再 实施 于 实际 。 系 统 难以 进行 分 析 及 解决 问题 ， 因 此 必须 把 系统 简化 。 所 以 模型 
就 是 系统 的 简化 、 抽 象 化 ， 它 是 系统 的 一 个 表达 方式 ， 而 不 利用 到 系统 本 身 。 模 型 是 为 了 
研究 系统 ， 将 系统 中 的 上 目标、 实体、 属性、 活动、 输入、 处理、 输出 等 关系 描述 出 来 。 因 
为 系统 简化 的 程度 不 同 ， 所 以 系统 的 模型 不 是 唯一 的 。 例 如 ， 地 图 就 是 实际 系统 〈 城 市 ) 
的 一 个 模型 ， 地 图 有 不 同 程度 的 简化 〈 只 有 高 速 公 路 的 地 图 ， 只 有 干道 大 马路 的 地 图 ， 大 
街 小 巷 都 有 的 地 图 ) ， 例 如 ， 在 地 图 上 的 “十 ”和 “一 ”。 为 了 不 同 的 研究 而 有 不 同 的 模 
型 ， 同 时 每 次 反馈 〈 评 价 ) 也 可 能 修改 模型 。 

第 6 章 模型 评价 给 出 了 模型 复杂 度 ， 复 杂 模 型 《地 图 ) 偏差 小 但 是 推广 泛 化 能 力 差 。 

所 以 模型 是 系统 的 一 个 代替 、 简 化 、 抽 象 或 仿真 ， 以 便 说 明 系统 ， 甚 而 在 模型 上 找 答 
案 以 解决 实际 系统 的 问题 。 

图 形 、 表 格 、 公 式 、 画 板 等 都 是 模型 ， 我 们 通常 在 模型 上 做 分 析 ， 而 不 在 真实 系统 
上 做 。 因 为 在 实际 系统 上 做 实验 ， 是 很 昂贵 或 不 可 行 的 。 模 型 可 以 进行 “ 若 这 样 会 如 何 ” 
Cwhatif) 的 模拟 ， 以 实验 数 种 工厂 布置 的 方案 。 

知识 表达 的 方法 ， 可 以 归纳 为 : EKE, AAR. EER SR. Pll, BTA EE 
QC 七 大 工具 〈 手 法 ) ， 其 中 ， 鱼 骨 图 〈 或 称 石川 图 、 因 果 图 、 特 性 要 因 图 ) 就 是 层次 图 ， 
中 间 的 大 骨头 是 最 上 层 ， 各 个 细 骨 头 是 层 别 。 大 数据 的 分 析 模型 有 : FER GRR) 、 坐 
标 图 〈 回 归 ) 、 珑 阵 图 〈 贝 叶 斯 、 混 淆 矩阵 ) 、 网 络 图 〈 类 神经 网 络 ) 。 大 数据 的 模型 输 
出 有 各 种 可 视 化 图 形 。 

模型 运用 的 过 程 包括 : 建立 模型 、 模 型 求解 、 得 到 解答 ， 如 果 不 满 意 解答 ， 则 修改 模 
型 ， 重 复 上 述 阶 段 ， 如 果 满 意 解答 ， 则 执行 解答 决策 与 实施 控制 。Simon 的 理论 中 ， 决 策 过 
程 分 为 理解 、 设 计 、 选 择 和 实施 四 个 阶段 。 图 1-3 所 示 的 跨行 业 数 据 挖 掘 标准 过 程 CRISP- 
DM 也 是 一 个 建 模 过 程 。 

如 图 1-15 所 示 为 模型 应 用 的 概念 图 ， 水 平 是 从 真实 到 抽象 ， 垂 直 是 从 叙述 到 方法 。 建 立 
模型 要 了 解 系统 ， 形 成 问题 ， 知 道 其 前 因 后 果 。 建 立 模型 没有 标准 答案 ， 艺 术 多 于 科学 CR 
观 ) ， 所 谓 艺术 是 指 有 很 多 个 人 的 主观 感觉 、 经 验 和 判断 。 在 模型 处 理 阶段 ， 是 找 出 模型 的 
解答 ， 这 还 不 是 系统 的 解答 。 经 过 决策 者 选择 或 确认 解答 ， 在 实际 系统 实施 解答 BR 
策 ) 。 如 果 发 现 解答 不 合乎 系统 ， 要 修改 模型 ， 再 找 新 的 决策 ， 这 是 评价 反馈 或 维护 。 
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图 1-15 ”模型 与 建 模 


R 语 言 通常 用 model、m 或 fit 表示 模型 。 例 如 : 


> m<- lm(y ~., data) # m 是 数据 data ABE y 的 线性 模型 


1.2.7 ”模型 的 假定 与 参数 


模型 的 假定 〈Assumption) 是 模型 的 约束 条 件 〈 如 变量 的 线性 关系 ) ， 或 假定 条 件 
〈 随 机 变量 的 正 态 、 独 立 、 相 同 分 布 或 相等 方差 ) 。 

模型 中 的 参数 (parameters) 是 已 知 确定 的 〈 输 入 的 参数 ) 、 未 知 的 常数 〈 输 出 的 参 
BO 或 模型 调整 的 数值 〈 模 型 处 理 的 参数 ) 。 

作业 研究 〈 运 筹 学 ) 的 线性 规划 模型 的 参数 是 已 知 确定 的 《敏感 性 分 析 考 虑 变动 ) ， 
例如 : 

Maxc'™x, stAx< b, x> 0 

目标 线性 函数 和 约束 条 件 的 系数 c，A，b 是 输入 的 参数 ， 称 为 参数 Anput) 。 

统计 学 模型 的 参数 是 未 知 的 常数 ， 例 如 ， 总 体 均值 、 方 差 、 比 例 值 、 相 关系 数 、 回 归 
系数 等 ， 是 统计 学 模型 要 估计 或 检验 的 对 象 ， 这 是 输出 的 参数 ， 称 为 O 参数 Output) 。 

大 数据 机 器 学 习 的 参数 有 算法 的 参数 ， 是 处 理 模型 的 参数 ， 称 为 超 参数 。 例 如 ， 随 机 森 
林 的 树 的 数目 、 树 的 深度 等 。 关 联 分 析 的 阔 或 阔 值 ， 临 界 值 或 门 坎 值 ， 是 模型 的 算法 参数 。 
BME (threshold) 是 令 对 象 发 生 某 种 变化 ， 所 需 的 某 种 条 件 的 值 ， 称 为 P 参 数 (Process) 。 

调 优 参数 (tuning parameters) 是 调整 模型 参数 ， 例 如 ， 逻 辑 回归 损失 函数 中 惩罚 的 正 
则 化 强度 (regularization strength) ， 或 决策 树 分 类 器 最 大 深度 的 设置 值 ， 都 是 P 参 数 。 

6.4.1 节 和 8.1.3 节 参数 学 习 与 非 参数 学 习 ， 简 单 的 说 ， 参 数学 习 是 固定 的 O SR (SK 
数目 不 因 样本 量 而 变动 ) ， 非 参数 学 习 是 变动 的 P 参数 。 

模型 参数 则 是 学 习 算法 拟 合 训练 数据 的 参数 ， 例 如 线性 回归 直线 的 加 权 系数 〈 或 斜 
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R) 及 其 偏差 项 (y 轴 截 距 ) 是 模型 O 参 数 。 

超 参数 需要 在 算法 运行 之 前 就 手动 给 定 ， 如 knn 中 的 k， 而 模型 参数 可 以 由 算法 自动 学 
习 到 。 人 逻辑 回归 模型 中 ， 模 型 参数 就 是 数据 集中 每 个 特征 变量 的 权重 系数 ， 该 系数 可 以 最 
大 化 地 对 数 似 然 函数 或 最 小 化 损失 函数 自动 更 新 ， 而 超 参 数 则 比如 是 迭代 次 数 ， 或 基于 梯 
度 的 优化 中 传递 训练 集 的 次 数 。 另 一 个 超 参数 是 正则 化 代价 cost 参 数 C 的 值 。 

及 语言 支持 向 量 机 的 : 包 :: 函 数 〈 公 式 ， 数 据 ， 控 制 参数 ，…) ， 如 下 : 


e1071::svm(x, y, kernel -"radial", degree = 3, gamma = 1，coef0 = 0，cost = 


1, nu = 0.5, cachesize = 40, tolerance = 0.001, epsilon = 0.1, cross = 0) 


1.2.8 敏感 ， 稳 健 或 鲁 棒 


模型 中 的 I 参 数 变动 ， 则 最 优 解 的 变动 情形 ， 就 是 敏感 性 分 析 ， 即 “ 若 … 则 …?” 
(what-if) 分 析 。 

稳健 或 鲁 棒 (robust) 模型 是 ， 虽 然 系 统 的 真实 情况 不 符合 模型 的 假定 条 件 ， 但 是 模型 
的 解答 与 系统 的 实际 解答 相去 不 远 ， 即 模型 解答 可 行 而 目标 值 误差 不 大 ， 所 以 稳健 鲁 棒 模 
型 的 适用 范围 较 广 。 

如 果 模 型 的 假定 条 件 不 符合 ， 造 成 模型 的 解答 结果 完全 不 对 ， 或 是 I 参 数 改变 ， 解 答 就 
差别 很 大 ， 我 们 就 称 这 个 模型 的 敏感 度 (sensibility) 很 高 。 敏 感度 很 高 ， 通 常 是 不 好 的 。 

鲁 棒 是 Robust 的 音译 ， 其 意思 是 稳健 的 ， 不 敏感 的 。“ 和 鲁 ” 是 不 敏感 ，“ 棒 ”是 稳健 
的 。 在 数据 挖掘 中 ， 有 时 会 探讨 模型 是 否 有 鲁 棒 性 。 


1.2.9 模型 的 过 拟 合 


过 拟 合 〈Overfitting) 是 大 数据 模型 的 一 个 重要 的 问题 ， 这 是 过 度 考虑 训练 数据 拟 合 模 
型 ， 结 果 造成 模型 测试 和 预测 的 方差 很 大 ， 泛 化 很 差 。 

假设 在 欧洲 某国 家 打车 ， 开 车 是 一 青年 男性 ， 结 果 他 抢劫 了 财物 ， 结 论 是 : 全 欧洲 出 
租车 的 师傅 都 是 会 抢 动 财物 的 男性 ， 这 就 是 过 拟 合 。 因 为 用 一 个 极端 案例 的 特征 变量 建立 
预测 模型 。 如 果 见 到 一 个 女性 ， 你 会 判定 他 不 会 是 出 租车 师傅 更 不 会 抢 动 ， 于 是 错误 率 就 
会 很 高 。 

用 武侠 小 说 来 比喻 ， 过 拟 合 可 以 说 是 “招式 用 老 ”〔 用 招 过 度 ) ， 太 多 算计 对 手 的 招 
式 ， 等 到 新 招式 〈 测 试 数据 ) 出 来 的 时 候 就 不 对 了 。 请 见 第 6 章 模 型 的 选择 。 

模型 的 各 种 拟 合 如 图 1-16 所 示 。 
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图 1-16 ”模型 的 拟 合 


过 拟 合 会 造成 模型 的 预测 结果 的 方差 很 大 ， 造 成 不 稳定 的 结果 ， 而 且 使 测试 数据 的 预 
测 结果 正确 性 降低 。 

过 拟 合 是 低 偏差 、 高 方差 ( 见 第 6 章 偏 差 与 方差 ) ， 比 较 容易 在 机 器 学 习 中 出 现 。 过 拟 
合 发 生 的 原因 如 下 。 

(1) 较 多 的 变量 。 增 加 O 参 数 〈 相 当 于 增加 变量 ) 。 

OD 记忆 特别 案例 《完全 拟 合 训练 数据 ) ， 将 “噪声 ” 当 作 “信息 ”。 
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G) P 参 数 的 设 定 ， 近 邻 法 的 k 很 小 或 等 于 1 。 

(4) 较 多 的 自由 度 ， 例 如 多 元 回归 SSR 的 自由 度 ， 也 就 是 越 多 的 自 变 量 。 

(5) 复杂 模型 ， 如 神经 网 络 。 

所 以 ， 要 改变 过 拟 合 要 尽量 做 到 如 下 几 点 。 

CD 减少 变量 。 减 少 O 参 数 。 

(2) 增加 训练 数据 。 

(3) 不 依赖 特别 案例 。 

(4) 去 除 杂音 异常 值 ( 噪 声 ) 。 

(5) 控制 P 参 数 。 

C6) 简单 模型 ， 正 则 化 在 模型 的 成 本 函数 中 加 上 了 参数 的 惩罚 项 。 

正则 化 在 处 理 过 程 中 引入 正则 化 因子 ， 增 加 约束 的 作用 ， 使 用 正则 化 的 Lasso 或 Ridge 
回归 ， 可 有 效 降低 过 拟 合 的 现象 。 请 见 第 7 章 。 


a) 大 数据 分 析 模 型 的 分 类 


我 们 要 从 各 个 角度 或 面向 ， 站 在 不 同 的 高 度 ， 去 看 大 数据 分 析 模 型 分 类 。 


1.3.1 后 设 模 型 


后 设 分 析 (Meta-analysis， 或 译作 元 分 析 、 整 合 分 析 、 综 合 分 析 、 荟 茜 分 析 )〉 是 指 将 多 
个 研究 结果 整合 在 一 起 的 分 析 方 法 。 希 腊 语 heth (metá) 的 意思 是 “之 后 ”或 “之 上 ”。 
后 设 模型 是 在 模型 之 上 ， 关 于 模型 的 模型 ， 超 越 模 型 的 模型 。 

先 来 理解 一 下 本 节 相 关 的 词汇 。 

e 形而上学 (Metaphysics) : 超越 自然 (physics 希 腊 文 ) 之 上 ， 中 译 取 自 易 经 ，“ 形 

而 上 者 谓 之 道 ， 形 而 下 者 谓 之 器 ”。 道 ， 形 而 上 的 本 体 ， 超 越 一 切 世间 存在 。 

e 元 数据 (Meta data) : 关于 数据 的 数据 、 超 越 数据 的 数据 。 

e 元 知识 (Meta knowledge) : 关于 知识 的 知识 、 超 越 知 识 的 知识 。 

€ 元 语言 (Meta language) : 用 来 描述 语言 的 语言 。 

€ 后 设 文法 (Meta grammar) : 用 来 描述 文法 的 文法 。 
后 设 理论 (Meta theory) : 用 来 解释 理论 的 理论 。 
后 设 认 知 (Meta cognitive) : 认 知 自己 的 认 知 。 


数据 概述 


e 后 设 学 习 (Meta learning) : 整合 学 习 的 学 习 ， 第 12 章 介绍 的 集成 学 习 是 后 设 
学 习 。 
e 后 设 模型 (Meta model) : 关于 模型 的 模型 ， 本 节 是 机 器 学 习 模型 的 后 设 模型 。 
什么 是 后 设 大 数据 (Meta big data) ? 后 设 和 人工 智能 (Meta artificial intelligent ) ? 
一 个 系统 的 模型 不 是 唯一 的 ， 模 型 没有 标准 答案 。 后 设 模型 更 不 是 唯一 的 ， 当 然 更 是 
没有 标准 答案 的 。 如 图 1-17 所 示 。 


后 设 模 型 Meta model 
Input Process Output 
输入 处 理 输出 
数据 模型 8B 


Information 


验证 Validation 
评价 Evaluation 


图 1-17 模型 与 后 设 模 型 


1.3.2 关系 与 因果 


哈佛 大 学 教授 Christensen 认 为 ， 建 立 管理 理论 可 以 分 为 三 个 阶段 ， 第 一 个 阶段 是 界定 
想 了 解 的 事物 或 现象 ， 第 二 个 阶段 是 进行 分 类 ， 分 类 是 为 了 凸显 复杂 现象 中 具有 重要 意义 
的 差异 性 ， 分 类 的 结果 并 非 唯一 ， 正 确 的 分 类 是 发 展 有 效 理论 的 关键 ,例如 管理 学 常用 的 
2X2 分 类 模型 、BCG 模型 ， 第 三 个 阶段 是 提出 理论 模型 ， 指 出 什么 原因 会 导致 什么 分 类 结 
果 ， 或 者 什么 分 类 现象 应 该 做 什么 ， 就 是 因果 或 关系 。 

所 以 ， 管 理学 的 分 析 主要 就 是 : DR. KR. AR. 


有 一 个 社会 心理 学 的 游戏 ， 是 给 你 三 张 图 片 : 猴子 、 熊 猫 和 香 葵 ， 问 哪 两 张 图 片 
BX? 这 个 社会 心理 学 的 研究 是 比 对 亚洲 人 和 西方 人 的 思维 方法 ， 亚 洲 人 大 多 会 回答 
猴子 与 香 葵 有 关 ， 西 方 人 多 数 会 认为 猴子 和 熊猫 有 关 。 猴 子 与 香蕉 是 因果 关系 的 思维 
( 食物 ) ， 猴 子 和 熊猫 是 分 类 关系 的 思维 ( 动物 ) 。 这 个 研究 也 是 有 分 类 : 亚洲 人 和 
西方 人 ; 有 因果 : 思维 方法 。 


大 数据 的 数据 挖掘 方法 主要 也 是 分 类 、 关 系 、 因 果 ， 可 以 归 类 成 : 关联 分 析 、 聚 类 分 
析 、 分 类 分 析 、 回 归 分 析 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) | 


1.3.3 ”基于 因果 关系 的 统计 学 分 类 


我 们 将 统计 学 方法 基于 因果 关系 ， 分 成 以 下 三 类 。 

CD 无 因果 或 关系 : 只 有 一 个 变量 〈 单 变量 ) 或 样本 空间 的 一 个 事件 概率 ， 例 如 ， 描 
述 统 计 、 一 个 总 体 一 个 变量 的 参数 估计 和 检验 。 

OD 有 关系 无 因果 : 两 个 变量 的 相关 系数 ， 例 如 概率 理论 中 两 个 事件 的 条 件 概率 、 独 
立 、 非 独立 关系 ， 分 类 数据 的 独立 性 检验 ， 指 数 与 时 间 序列 时 间 的 因素 分 析 。 

GO 有 关系 因果 : 两 个 总 体 的 参数 估计 与 检验 ， 方 差分 析 ， 回 归 分 析 。 

如 图 1-18 所 示 是 统计 学 方法 的 分 类 。 上 述 统计 学 方法 ， 请 见 《 大 话 统计 学 》。 


一 个 变量 X © 描述 统计 6 数值 图 形 9 无 关系 by o, 
估计 检验 ee 无 关系 uso. 
一 个 事件 A9 概 率 计算 9 无 关系 PA) 

非 独 立 事件 S 有 关系 PAB) AP (A) 
两 个 事件 A, Be) 条件 概率 © 有 因果 P AJB) 
贝 叶 斯 式 © AARP (AJB) 
一 个 变量 X © 期 望 方差 e 无 关系 uo, 
-| 两 个 变量 X, Ye 相关 系数 9 有 关系 无 因果 pw 


样本 空间 9 


统计 学 


E 陈 文 贤 陈 静 枝 著 《 大 话 统计 学 》 


时 间 序 列 9 趋势 季节 eS 有 因果 Fa 


时 间 变量 9 预测 6 


指数 © 物价 po pio 有 因果 Ip 

分 类 数据 eS 独立 检验 有 关系 无 因果 入 

相关 系数 eX, Y o 有 关系 无 因果 py 

两 总 体检 验 6X 因 子 1, 2 9 有 因果 X 一 Y: y» 
因果 G9 方差 分析 69 义 因子 1, …, ke 有 因果 X 一 Y: yy 
回归 分 析 eX, Ye 有 因果 Y=atby 


两 个 以 上 eRe 
变量 


图 1-18 ”统计 学 方法 的 分 类 


1.3.4 ”基于 因果 关系 的 大 数据 分 类 


大 数据 分 析 或 数据 挖掘 模型 都 会 提 到 监督 式 与 非 监 督 式 。 监 督 式 是 有 因果 关系 ， 非 监 
督 式 是 有 关系 无 因果 。 

大 数据 分 析 模型 的 分 类 : @ 非 监督 式 〈 因 果 或 关系 ) ; @ 模 型 算法 ;@@ 数 据 尺 度 ; (D 
法 则 分 类 ; 加 评估 准则 等 。 大 数据 分 析 模型 分 类 如 图 1-19 和 表 1-3 所 示 。 
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关联 { 项 目 集合 } © 关联 规则 
HRD Ry) | 聚 类 { 实 例 集合 } 9 聚 类 分 析 
降 维 { 变 量 组 合 } o 主 成 分 分 析 
学 习 关系 | | 推荐 {评价 相似 }o 协同 过 渡 
近邻 法 ， 朴 素 贝 叶 斯 


RE, EAL 


Xi} 一 Y 因 子 < 
分 类 {Xi} 一 Y 因 子 支持 向 量 机 


预测 分 析 
监督 式 学 jE 
JAR 


神经 网 络 
大 数据 预测 {Xi} 一 Y 数 值 | 多 元 回归 
时 间 序列 
HR | 文本 挖 所 6 词 去 图， 社交 网 络 
关系 
预测 | 序列 分 析 e 搜 寻 检索 ， 辩 识 判别 
因果 


图 1-19 大 数据 分 析 方法 的 分 类 


表 1-3 大 数据 方法 的 分 类 
大 数据 分 析 
数据 分 析 ( 数据 挖掘 ) 
监督 式 
HAR (AR 


分 类 
贝 叶 斯 | 支持 


文本 分 析 
描述 式 | 预测 式 
(KA) | CAR 


决策 树 
集成 法 | 近邻 法 | 向 量 机 


随机 
森林 


贝 叶 斯 
网 络 


概率 
混淆 矩阵 /正确 率 


(因果 ) lanua 


概率 
计算 速度 /复杂 度 


空间 


表 1-3 是 一 个 阶层 式 的 分 类 表 ， 每 个 阶层 是 属于 上 一 个 阶层 的 属性 。 例 如 ， 随 机 森林 
算法 是 决策 树 算 法 的 一 种 ， 是 一 种 分 类 模型 ， 是 一 种 监督 式 〈 因 果 预 测 式 ) 的 数据 挖掘 分 
析 ， 数 据 类 型 是 离散 型 或 连续 型 ， 有 目标 函数 〈 卷 标 ) 是 分 类 尺度 ， 算 法 法 则 是 统计 法 ， 
评估 准则 是 准确 度 。 


/大 话 数据 科学 


也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


1.3.5 ”基于 数据 类 型 的 分 类 


如 图 1-20 所 示 是 基于 数据 类 型 的 分 类 ， 


O 中 的 数字 表示 是 本 书 第 几 章 。 


降 维 分 析 (5) Bia 
7 因 变量 
一 一 一 | 模型 评价 与 选择 (6) 
EX: 分 类 分 析 
: 贝 叶 斯 (9) 
决策 树 (10) 
学 习 
关联 规则 WEE [ar REANO) 
(3) 推荐 系统 近邻 法 (8) 
支持 向 量 机 (11) 
时 间 序 列 变量 了 | 时 间 1: Y, Yo oY, 预测 变量 7,， 


图 1-20 基于 数据 类 型 的 大 数据 分 析 方 法 分 类 


如 图 1-21 所 示 是 大 数据 分 析 应 用 流程 图 。 


文本 挖掘 
文本 网 络 


字 词 频率 
词 云图 


分 析 : 移动 平均 指数 平滑 
预测 ， 回 归 分 析 ARIMA 


数据 降 维 
可 视 化 


BR: 决策 树 


| 


分 类 : 逻辑 回归 
判别 分 析 


预测 ， 回 归 树 
方差 分 析 


预测 : 
多 元 


回归 分 析 
归 


关联 规则 


图 1-21 大 数据 分 析 应 用 流程 图 
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如 表 1-4 所 示 是 不 同 数据 类 型 对 大 数据 分 析 方法 的 分 类 。 
RIA ”数据 类 型 对 大 数据 分 析 方法 的 分 类 


监督 式 学 习 


聚 类 分 析 0-1 数 据 


基于 用 户 的 协同 基于 项 目的 协同 
过 滤 推 荐 系统 过 滤 推 荐 系统 


降 维 分 析 
时 间 序 列 


1.3.6 ”基于 测量 的 分 类 


机 器 学 习 基于 测量 的 分 类 有 以 下 几 种 。 

(1) 基于 概率 测量 (probability based learning) : 
关联 分 析 ， 贝 叶 斯 分 类 ，EM 聚 类 法 。 

(2) 基于 相似 《距离 ) 测量 (similarity based learning) : 
聚 类 分 析 〔 距 离 或 相似 度 ) ， 天 -近邻 法 。 

G) 基于 信息 Of) 测量 (information based learning) : 
决策 树 ， 集 成 学 习 。 

(4) 基于 误差 测量 Cerror based learning) : 

回归 (最 小 二 乘法 ) ， 时 间 序 列 。 

C5) 基于 统计 测量 (statistics based learning) : 
主 成 分 分 析 〈 相 关系 数 ) ， 分 类 的 组 合 分 析 〈 集 成 法 ) 。 
(6) 基于 空间 (几何 ) 测量 (space based learning) : 
支持 向 量 机 〈 超 平面 ) 。 

(7) 基于 生物 测量 (biology based leaming) : 
神经 网 络 ， 遗 传 算法 。 


/大 语 数 据 科学 
也 大 数据 与 机 器 学 习 实战 (SFREE) | 


1.3.7 ”数据 科学 模型 的 其 他 分 类 


数据 科学 模型 还 有 其 他 分 类 ， 分 散在 本 书 多 个 位 置 图 1-22 是 学 习 模 型 与 数据 科学 ， 
图 6-10 模 型 选择 的 复杂 度 ，6.4.1 节 和 8.1.3 节 的 参数 学 习 器 和 非 参 数学 习 器 ，8.1.1 节 的 “认真 
学 习 器 与 懒惰 学 习 器 ”， 还 有 图 8-3 基 于 实例 或 属性 的 学 习 模型 ， 图 11-2 监 督 式 学 习 比较 。 


统计 机 器 学 习 


计算 机 


科学 


统计 
演算 


: 成 
TRENE apre 
产业 大 数据 


产业 专业 知识 
图 1-22 ”学习 模 型 与 数据 科学 


o 大 数据 的 江湖 传奇 | 


金良 在 《 笑 做 江湖》 中 说 : “只 要 有 人 的 地 方 就 有 恩怨 ， 有 恩怨 就 会 有 江湖 ， 人 
就 是 江湖 。” 将 恩怨 改 为 数据 : “只 要 有 人 的 地 方 就 有 数据 ， 有 数据 就 会 有 江湖 ， 人 在 
江湖 。” 

武侠 小 说 是 在 写 江湖 传奇 ， 通 常 的 故事 是 : 主角 经 过 奇遇 如 灵 丹 怪 兽 ， 遇 到 师父 传授 
功力 招式 ， 得 到 武功 秘籍 ， 然 后 快意 恩 仇 ， 行 侠 仗义 ， 消 灭 恶 徒 ， 称 霸 江湖 。 

大 数据 的 江湖 故事 是 ， 企 业 得 到 珍贵 数据 ， 学 习 挖掘 方法 ， 获 得 信息 、 知 识 、 智 能 ， 
创造 份额 优势 ， 打 败 竞争 对 手 。 

《 笑 傲 江湖》 将 华山 派 武 功 分 为 剑 宗 和 气 宗 ， 剑 宗 注重 剑 法 招式 ， 气 宗 注重 气功 内 
功 。 大 数据 分 析 、 数 据 挖掘 、 机 器 学 习 就 是 大 数据 的 剑 宗 。 

以 下 是 大 数据 的 江湖 门派 。 

@ 华山 派 剑 宗 

大 数据 分 析 、 数 据 挖掘 的 招式 ， 独 孤 九 式 : 数据 挖掘 十 大 算法 。 大 数据 分 析 的 分 类 、 
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回归 、 聚 类 、 关 联 规则 等 数据 挖掘 机 器 学 习 方 法 。 本 书 是 属于 大 数据 中 的 剑 宗 ， 本 章 是 剑 
宗 独 孤 九 剑 的 总 雇 式 。 

6 华山 派 气 宗 

大 数据 处 理 程序 ， 数 据 收集 ， 预 处 理 ， 可 视 化 ， 大 数据 处 理 框架 ， 数 据 库 /仓库 ， 分 布 
式 并 行 处 理 ，Hadoop，MapReduce。 

以 前 武侠 武功 常 以 动物 为 师 ， 如 猴 、 蛇 、 鹰 、 稚 、 蛤 蜡 等 ， 现 在 的 大 数据 功 法 也 喜欢 
以 动物 为 名 ， 如 Python (fe) . Pandas (熊猫 ) . Hive (HES) 、Pig OD 等 。 

本 书 有 R 语 言 实战 的 数据 ， 因 数据 量 大 ， 而 且 有 调 参 和 和 集成 的 算法 ， 用 笔记 本 电脑 处 
理 有 的 需要 一 两 小 时 ， 所 以 可 能 要 用 大 数据 气 宗 来 加 快 处 理 速 度 。 

© RZA 

大 数据 相关 书籍 和 出 版 社 ， 大 数据 案例 探讨 。 

O 铸 剑 师 

大 数据 分 析 函 数 与 程序 包 以 R 语 言 和 Python 语言 为 工具 。R 语 言 的 包 、Python 和 相关 的 

台 ， 应 用 在 神经 网 络 、 深 度 学 习 等 。 

O EE 

大 数据 分 析 平 台 。 例 如 ， 谷 歌 的 Tensorlow， 脸 书 的 PyTorch， 阿 里 PAI 机 器 学 习 平台 。 
铸 剑 师 和 武术 馆 有 要 付费 的 和 免费 的 分 享 平台 。 

现代 大 数据 平台 不 只 是 武术 馆 ， 而 好 像 是 武器 馆 ， 只 要 会 选择 武器 如 手枪 〈 模 型 ) ， 
会 装 子弹 〈 数 据 ) ， 会 瞄准 〈 调 参 ) , SAL GES) ， 检 查 命中 率 ( 验 证 ) ， 就 可 
WAR OM) 。 于 是 出 现 了 手枪 原理 〈 模 型 理论 ) 、 弹 道理 论 〈 算 法 过 程 ) 、 装 拆 手枪 
(程序 设计 处 理 ) ， 使 黑箱 可 交 给 专家 或 学 术 机 构 处 理 。 

Q 少林 武当 派 

中 国 互联 网 公司 三 巨头 BAT (百度 、 阿 里 巴巴 、 腾 讯 ) ; 美国 FAANG (〈 脸 书 、 亚 马 
逊 、 苹 果 、 网 飞 、 谷 歌 ) ， 这 些 可 以 说 是 大 数据 的 少林 武当 派 。 

0 5# 

数据 和 程序 共享 平台 。R 语言 是 开源 免费 共享 平台 ，R 提供 14000 个 以 上 的 软件 包 ， 这 
些 包 就 像 是 丐 帮 的 大 小 分 舵 ， 有 数据 有 算法 函数 。 而 Python 语言 的 框架 ， 一 样 是 免费 共享 
平台 ， 例 如 Tensorlow 有 谷歌 的 支持 ， 就 像 是 少林 武当 的 大 寺庙 。 

O 概 帮 

大 数据 概念 帮 ， 介 绍 大 数据 应 用 在 医学 、 保 险 、 和 零售、 会计、 工业、 制造 、 农 业 、 金 
融 、 电 商 、 地 理 、 运 动 等 各 行业 。 多 数 是 概念 ， 纸 上 谈 兵 。 

对 于 概 帮 ， 我 们 要 问 : 问题 种 类 ， 数 据 来 源 ， 数 据 类 型 ， 分 析 方法 ， 模 型 和 算法 ， 信 
息 结果 ， 验 证 评价 ， 应 用 价值 ， 这 是 CRISP-DM 跨行 业 数 据 挖掘 标准 过 程 。 如 果 无 法 回答 
上 述 问 题 ， 就 是 概 帮 。 当 然 ， 有 些 概 帮 是 因为 商业 机 密 ， 无 法 提供 这 些 说 明 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 
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例如 ， 有 一 家 保险 公司 ， 声 称 利用 大 数据 揪 出 诈 保 案件 ， 数 据 挖掘 分 类 分 析 结果 是 : 
好 人 (不 诈 保 ) 特征 是 : @ 申 请 理赔 金额 低 ，@ 投 保 多 年 后 第 一 次 申请 理赔 ，@@ 只 申请 一 
日 额 理 赔 ，@ 符 合 免 调 查 条 件 。 坏 人 诈 保 ) 特征 是 : @ 投 保 后 短期 内 申请 理赔 ; @@ 密 集 
BR: @ 跨 区 看 病 ，@ 医 师 病 人 状况 雷同 ，@ 手 术 不 符合 标准 ，@ 住 院 天 数 不 符 合 常 理 ; 
@@ 同 业务 员 出 险 率 高 。 这 个 大 数据 分 析 结果 其 实 不 必 做 挖掘 ， 我 们 也 知道 结果 ， 这 就 是 
“ 盖 帮 ”。 

Qs 

大 数据 的 宣传 机 构 ， 帮 助 盖 帮 的 宣传 机 构 。 

D mess ( Bir) 

制造 假 数据 ， 资 数据 的 人 。 


(9 钱庄 

大 数据 存储 。 

(B 刑部 神 捕 司 

大 数据 执法 的 公家 机 构 ， 维 护 国家 和 个 人 隐私 安全 ， 个 资 保护 。 

Q 镖局 

大 数据 保护 ， 数 据 安 全 。 

@ piż 

门派 内 大 数据 的 安全 保护 ， 大 数据 平台 运行 安全 ， 企 业 的 法 务 部 门 。 

以 上 门派 可 以 对 照 数 据 科学 领域 与 数据 挖掘 标准 过 程 ， 如 图 1-23 和 图 1-24 所 示 。 


铸 剑 师 武术 馆 


产业 专业 知识 
(隐私 安全 ) me 
数据 


图 1-23 ”大 数据 江湖 门派 与 数据 科学 领域 


z0: ESL 


4. mA 


图 1-24 大 数据 江湖 门派 与 数据 挖掘 标准 过 程 
如 图 1-25 所 示 是 大 数据 江湖 传奇 的 聚 类 分 析 ， 图 中 方圆 圈 表 示 该 门派 的 估计 数目 。 


图 1-25 ”大 数据 江湖 门派 的 聚 类 分 析 


大 数据 门派 的 估计 数目 ， 可 以 从 教育 界 〈 学 校 、 老 师 ) 、 企 业界 、 政 府 等 面向 分 别 去 
估计 。 图 1-25 可 以 说 是 一 个 后 设 大 数据 。 

大 数据 目前 没有 倚天 剑 、 属 龙 刀 。 没 有 一 个 天 下 无 敌 的 招式 ， 没 有 一 个 招数 可 以 打败 
所 有 的 武功 。 天 下 没有 一 个 药方 可 以 治 百 病 。 大 数据 没有 一 个 模型 (或 算法 ) 可 以 解决 所 
有 的 数据 分 析 。 所 以 应 用 数据 挖掘 ， 每 个 方法 都 有 优点 缺点 〈 本 书 多 数 章节 有 说 明 ) ， 有 
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适用 环境 和 范围 ， 实 战 需要 经 验 和 商业 知识 。 

大 数据 和 武侠 世界 有 一 点 不 同 的 是 ， 武 侠 的 内 功 〈 气 宗 ) 是 基本 功 不 会 变 ， 剑 招 〈 剑 
宗 ) 是 会 改变 的 ， 要 讲 无 招 有 性 有 招 是 有 些 过 分 。 相 对 来 说 ， 大 数据 的 气 宗 〈 计 算 机 技术 ) 
比 剑 宗 〈 数 据 挖掘 技术 ) 容易 创新 改变 的 ， 因 为 计算 机 科学 技术 可 以 说 是 日 新 月 异 。 数 据 
挖掘 已 经 有 二 三 十 年 的 历史 ， 是 因为 网 络 和 计算 机 技术 才 有 大 数据 。 

二 十 年 前 的 算法 求解 ， 因 为 计算 机 的 速度 和 储存 能 力 ， 所 以 斤斤计较 于 计算 的 复杂 
性 。 现 在 用 分 布 式 并 行 处 理 ， 就 可 以 解决 很 多 计算 的 问题 。 所 以 ， 因 为 计算 机 的 快速 能 
力 ， 使 得 以 前 统计 学 、 数 据 挖 据 、 人 工 智能 (记得 有 AI 之 冬 ) ， 无 法 处 理 的 模型 ， 现 在 可 
以 用 训练 和 验证 大 数据 。 这 就 说 明了 武侠 小 说 的 一 句 话 : 

天 下 武功 ， 无 坚 不 挫 ， 唯 快 不 败 。 


R 语 言 “ 词 云图 ”代码 


【 R 例 1.1 】 数据 科学 R 词 云图 
Bei: WD, BURG): wordcloud2 (wordcloud2) 
数据 框架 data frame: AEE VI, V2 


+ R 例 1.1 

if(!require (wordcloud2) ) {install.packages ("wordcloud2") } 

if (! require (grDevices) ) (install.packages ("grDevices") } 

library (grDevices) 

library (wordcloud2) 

Vi = c (" 数 据 ", "机 器 学 习 "， "模型", "大 数据 ", "统计 "，" 数 据 科学 "，, "数据 挖 据 "，" 计 算 机 "， 
"RX", "预测 "， "参数 "，" 神 经 网 络 ", "误差 ", "知识 ", "变量 ", "回归 "，" 样 本 "," 图 形 ", "决策 
bi", "江湖 传奇 "， "数据 科学 家 "， "XA" "AŽ" "方法 ", "时 间 " "ATER" ， "关联 
规则 "， "支持 向 量 机 ", "集成 学 习 "， "随机 森林 "， "ERRER", "R BA", "监督 式 学 习 "， 
"apriori", "ME", "近邻 法 "， " 非 监督 式 学 习 ", "协同 过 滤 ", "互联 网 "， "交叉 验证 "， " 商 
an "估计 "， "分 布 "。，" 分 析 ” ， "分类" rint y "清华 大 学 ", "可 视 化 " ， "向 量 "， "数据 
jg", "学 习 器 。 , "因子 ”," 基 于 " ，" 处 理 ", "学 习 ” ，" 定 义 "” ," 实 战 ",，" 实 际 值 ", "实验 ” ， 
"BA" ， "平台 " , "Æa" "RA" ，" 抽 样 "，" 过 拟 合 ” , "指数 "， "指标 ” ， "挖掘 ， 
"损失 ” ， “接口” "ee", "推荐 。 , "描述 "， "AR", "效率 "， "数学 ， "数据 分 析 "” ， 
"数据 可 视 化 "，" 机 构 "，" 条 件 ”, "来 源 ” ， "标准 "， "标签 ”，" 样 本 "， "案例 ” ， "概率 " ， 
"模型 选择 ”，" 后 设 模式 ” "ES", "KP" "EB" , "独立 ” , "理论 " ， USE* , "XR 
We "目标 " "EX", "AR", "ER", "研究 ", "社交 网 络 ” ," 超 参数 "， "程序 SUA 
Mi" ，" 算 法 "， "管理 ” , "类别 "， "系数 "， "系统 ” ，" 线 性 ", "组 合 "，" 结 构 " ， "编程 ", " 观 
Ra" QUEDÉ" ， "规则 ” ，" 回 归 树 ” , "训练 集 ” ，" 评 价 "， "评估 "， "误差 ” ," 贝 叶 斯 " ， 


> 
> 
> 
> 
> 
> 
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"资料 。 , "ER" ， "软件 "， "过 程 ", "选择 ” ，" 重 要” ，“" 销 售 ” ，" 随 机” ， "风险 ", "驱动 " ， 
"BIC" , "AIC" , "CRISP", "CV" , "KNN", "Python" , "svn", "AREE", "Se", "8 
业 智 能 "，"Logistic 回 归 "，"Ridge 回 归 "，"Lasso 回 归 "，" 逮 辑 回归 "， "WEZI", "2# 
算法 ") 

> V2 = c(2020, 750, 700, 800, 850, 900, 650, 600, 650, 500, 400, 500, 500, 
450, 480, 500,400, 500, 550, 450, 400, 450, 450, 300, 300, 500, 550, 450, 
500, 450, 400, 420, 500, 400, 350, 400, 300, 450, 400, 350, 220, 300, 
200, 300, 400, 250, 300, 400, 200, 500, 450, 300, 300, 280, 280, 250, 
300, 400, 200, 350, 350, 450, 300, 300, 450, 300, 300, 300, 300, 300, 
200, 400, 200, 300, 300, 200, 300, 300, 200, 250, 300, 300, 300, 300, 
300, 400, 300, 400, 300, 300, 400, 200, 200, 300, 350, 300, 250, 300, 
300, 250, 350, 350, 200, 300, 250, 300, 300, 200, 200, 300, 300, 300, 
300, 350, 200, 200, 250, 350, 400, 300, 300, 400, 300, 300, 260, 300, 
250, 200, 250, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 350, 
300, 300, 380,380, 380, 320, 300, 300) 

> WD <- data.frame(V1l, V2) 

> str(WD) ; WD 

> wordcloud2 (WD, shape = "star") 
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5V: K, 快 , 杂 , 确 , 值 
AE, RK, 转型 , 平台 
未 知 ， 潜 在 ， 理 解 


监督 式 、 非 监督 式 


OLAP，OLIP 


历史 , BUR. 应 用 , 类 型 


行动 , 思考 ; 人 性 , 理性 


剑 宗 , 气 宗 , 少林 武当 , 武 馆 , 铸 剑 师 
丐 帮 , 概 帮 , 盖 帮 , 钱庄 , 镖局 , 魔 教 , 刑部 


词 云图 : R 例 1.1 


江湖 门派 聚 类 分 析 : 人 才 培 养 , 课程 体系 


wordcloud2::wordcloud2 
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凡 大 数 之 法 ， 万 万 目 亿 ， 万 万 亿 上 日 兆 ， 万 万 兆 目 京 ， 万 万 京 日 陵 ， 


万 万 隘 日 稀 ， 万 万 身 日 二， 万 万 壤 日 沟 ， 万 万 沟 日 润 ， 万 万 润 日 正 ， 万 万 
正 日 载 。 


一 一 《和 孙子 算 经 》 
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E 大 数据 进位 


大 数据 5V 的 第 一 个 V 是 巨大 海量 ， 估 计 到 2020 年 数据 的 总 量 为 40 ZB 字 节 ， 这 是 多 少 ? 
《孙子 算 经 》 是 中 国 南 北朝 的 数 术 著作 ， 成 书 在 四 五 世纪 ， 也 就 是 约 一 千 五 百年 前 。 
中 国 的 算数 是 以 “万 ”(104) 为 进位 单位 ， 万 万 为 亿 ， 万 亿 为 兆 ， 万 兆 为 京 ; 英文 的 数 
EEA F” AO) 为 进位 单位 ， 千 为 K，1000K 为 M，1000M 为 G， 一 万 是 10K， 一 亿 是 
100M。 中 国 进位 单位 到 “ 载 ” (104 ) ， 万 载 到 了 尽头 ， 已 经 是 天 文 数字 。 
表 2-1 中国 和 英文 的 算术 进位 
中 国 进位 | 英文 进位 | 存储 进位 


om oi | | 


现在 通常 只 用 到 “ 兆 ” C109) 这 个 单位 ， 不 知道 再 过 多 久 ，“ 京 ” (1019) 或 
P (105) 会 成 为 常用 的 单位 。 

微软 公司 的 比尔 。 盖 茨 在 1981 年 说 : 640K 对 任何 人 来 说 都 应 该 足够 了 ， 而 现在 个 人 存 
储 已 经 都 用 TB 为 单位 。 

摩尔 定律 说 : 当 价 格 不 变 时 ， 集 成 电路 上 可 容纳 的 元 器 件 的 数目 ， 每 隔 18 一 24 个 月 便 
会 增加 一 倍 ， 性 能 也 将 提升 一 倍 ， 换 算 为 成 本 ， 即 每 隔 一 年 半 成 本 可 降低 一 半 。 这 种 趋势 
已 经 持续 了 50 多 年 ， 虽 然 摩尔 定律 已 经 被 宣告 趋 组 或 结束 ， 但 信息 技术 前 进 的 步伐 并 不 会 
变 慢 。 

人 类 数据 的 成 长 是 每 年 几 十 倍 。 大 数据 和 人 工 智能 也 就 是 在 这 个 趋势 下 成 长 起 来 。 

这 二 十 年 来 ， 人 类 文明 的 进步 ， 除 了 信息 科技 ， 还 有 开放 共享 ， 例 如 R 语言 ， 这 也 是 
本 章 和 本 书 的 重点 。 


R 语 言 介绍 


Ill 


了 语言 是 一 种 程序 语言 ， 其 应 用 面向 数据 处 理 、 统 计 分 析 、 数 据 挖掘 、 机 器 学 习 、 数 
据 可 视 化 。R 语 言 的 特点 是 功能 强大 、 源 代码 开放 、 共 享 平台 免费 。R 语言 提供 一 万 个 以 上 
的 软件 包 ， 包 〈package) 是 函数 、 数 据 集 和 编译 程序 等 的 集合 。 


2.2.1 安装 R 语言 软件 


首先 ， 下 载 R 语 言 软件 : 

(1) 进入 网 站 www.r-project.org。 

(2) 在 R 主页 左上 角 Download 下 单 击 CRAN。 

(3) CRAN 链 接 ， 选 择 一 个 镜像 Mirrors 链 接地 址 ， 如 中 国 的 清华 大 学 。 
https://mirrors.tuna.tsinghua.edu.cn/CRAN/. 

(4) 选择 Download R for Linux, Download R for Mac#kDownload R for Windows. 
(5) 如 果 选 择 Download R for Windows, "ili base 基础 包 。 

(6) 下 载 执 行文 件 ， 单 击 Download R 3.5.3 for Windows。 

(7) 安装 R 语 言 软件 。 

(8) 启动 RK， 出现 R 的 提示 符 >， 开 始 R 的 命令 内 容 。 

(9) 了 的 # 表示 说 明文 件 批注 ， 程 序 不 会 执行 。 

(10) 一 行 多 个 表达 式 可 以 用 ， 隔 开 ， 一 个 表达 式 可 分 成 多 行 。 

(OD + 号 表示 尚未 输入 完成 ， 接 续 上 一 个 命令 ， 可 按 Esc 键 离开 。 

aD + 键 可 自动 重复 上 一 个 命令 ， 如 果 打 错 一 个 命令 行 ， 可 以 此 修改 。 

(130 MR 数据 ) 名 称 是 英 数 字 加 底线 或 句点 ， 第 一 个 字 是 英文 ， 大 小 写 有 差异 。 
(14) 创建 对 象 用 <- 或 = 号 ， 以 〈) 括 住 命令 直接 显示 数据 ，NA 表 示 遗 失 值 。 
(15) 档案 路 径 可 写成 “c:/R/babies.txt” 或 “ci:\R\\babies.txt”。 


2.2.2 下载 R 语 言 程序 包 


在 2.2.1 节 第 7 步 安装 R 语 言 ， 用 桌面 捷径 R x64 3.5.3 ER AJR. 


> install.packages ("arules") 


如 图 2-1 所 示 ， 选 择 一 个 镜像 链接 (右边 5 个 在 other mirrors) 。 
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China (Hong Kong) [https] | China (Beijing) [https] 
China (Guangzhou) [https] China (Beijing) 

China (Lanzhou) [https] ‘China (Hefei) [https] 
China (Shanghai 1) [https] — China (Hefei) 

China (Shanghai 2) [https] — China (Lanzhou) 


图 2-1 选择 镜像 链接 


> library(arules) # 每 次 重新 执行 R 要 调用 1ibrary 载 入 包 

> require () # 也 可 载 入 包 ， 会 根据 包 的 存在 与 否 返回 true 或 者 false 

> search() * 了 解 目前 R 工作 空间 已 调用 的 library 

installpackages ( *&" ) — library (44) 一 函数 (数据 ，method = 方法 ， 参 数 ) 。 
instal.packages ( *&" ) 只 要 在 第 一 次 安装 , 以 后 每 次 要 用 library( 包 ) 。 

函数 (Function) 有 自 定义 函数 和 调用 函数 ， 请 见 表 2-3， 例 如 : 


> dis«- dist(data,method = "euclidean"); hc «- hclust(dis,method= 
"complete") 


e R 数 据 对 象 的 属性 与 结构 | 


在 《大 话 统计 学 》 中 定义 数据 的 衡量 尺度 有 : 定 比 尺度 、 定 距 尺度 、 定 序 尺度 、 定 类 
尺度 。 在 R 数 据 对 象 的 属性 有 : 数值、 整数、 因子、 逻辑 和 字符 串 。 数 据 对 象 结构 有 : 向 
量 、 因 子 、 和 矩阵、 数据 框 、 数 组 、 列 表 、 时 间 序 列 等 ， 如 图 2-2 所 示 。 


连续 数据 < ŠERE >> 数值 向 量 
整数 数据 一 一 整数 因子 
数据 sme ^ radi T un REM 
m 上 ol 数据 "3 数组 | R22) 
逻辑 数据 一 一 一 一 一 一 一 逻辑 列表 
字符 串 数据 一 — — — — set 时 间 序 列 


图 2-2 ”了 数据 对 象 的 属性 与 结构 


2.3.4 数值 


数值 (numeric) : 下 列 命令 a，al 是 变量 ， 分 别 指定 为 5，3.5。 


> a <- 5 # 创建 数据 对 象 a 


> ah <= 345 


2.3.2 整数 


整数 (integer) : 下 列 命令 b，b2 是 变量 ， 分 别 指定 为 整数 $S，2。bl 是 数值 。 


> b <= 5h 

> Ee e= 

> b2 «- as.integer (bl) 
» typeof (b2) 


[1] "integer" 


2.8.8 字符 串 


字符 串 〈character) : 引号 要 用 " "， 不 能 用 “ ”如 果 用 Word 编 程 ) o 
下 列 命令 c，c1 是 变量 ， 分 别 指定 为 字符 串 。 


> @ <- "irst" 
> cl <- "Big Data" 


> mode (c) 
[1] "character" 
> is.character (c1) 


[1] TRUE 


2.3.4 逻辑 


逻辑 (logicaD : TRUE =T=1，FALSE =F= 0。 下 列 命令 4 是 变量 ， 指 定 为 TRUE。 


> d <- TRUE 
> bE d 


[1] FALSE 
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»a--b # 判定 a 是 否 等 于 b 


[1] TROE 
> is.numeric (a) 
[1] TRUE 
> is.integer (a) 
[1] FALSE 
> TRUE + T + FALSE*F + T*F + T*T + F 


[1] 3 


2.3.5 向量 


向 量 (vector) 没有 维度 ， 不 是 行 向 量 1 Xn， 也 不 是 列 向 量 nX1， 如 图 2-3 所 示 。 


向 量 每 个 元 素 有 相同 的 格式 ， 数 值 或 符 串 符 。 下 列 命令 e，f，g，a 是 变量 ， 指 定 为 
向 量 。 


» e «- c(1,2,3,4) # 创建 数值 向 量 e 
> f <- c(1:3) + 创建 整数 向 量 f 
> g <- c("A", "B", "C", "A") + 创建 字符 串 向 量 g 
> a <= c(1,2,3,NA) 

> sum(a) 


[1] NA 
> sum(a, na.rm = TRUE) 


[1] 6 


v 


data «- c(4,3,2,5.6,7.2,9,15,28) 


summary (data) 


V 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
2.000 3.750 6.400 9.225 10.500 28.000 


> c(10,12,19) + c(8,5,9) 
[1] 18 17 28 


V 


€$1,2,3) * €(3,2,1) 


111343 

> 6(1,2,3,4) = 6(1,2) 
(112446 

> c(12,9, "dog", 7,5) + 向 量 每 个 元 素 有 相同 的 格式 ， 数 值 或 字符 串 符 
[1] "12" "9" "dog" "7" "S" $ 结果 都 变 成 字符 串 符 


2.3.6 因子 
FF (factor) 是 定 类 变量 〈 无 顺序 ) 或 定 序 变量 〈 有 顺序 ) ， 分 为 有 序 因子 和 无 序 


下 列 命 令 E，g 是 向 量 ，F，G，H，h 是 变量 ， 指 定 为 因子 。HH，h 改 为 有 序 因 子 。 


> E «- c("a", "p", "c", "p") 
» F «- as.factor(E) + 创建 因子 F 
> G «- factor(E,order-FALSE, levels- c("a", "b", "c")) 
» H «- factor(E,order-TRUE,levels-c("a", "b", "c")) 
> (g <- c("A", "B", "C", "D") ) 

[1] "A" "B" "C" "p" 
如 图 2-4 所 示 。 


Ej 6 (9j (sj 


图 2-4 KFF 


» (h «- as.factor(g)) 


[1] ABCD 
Levels: AB C D 


> (h <- factor(x-g, levels-g, ordered-TRUE)) # 创建 有 序 因子 h 


[1] ABCD 
Levels: A« B« C« D 


如 图 2-5 所 示 。 


(sj - (5j - 5j 


图 2-5 有 序 因子 h 


- 国 


> ordered(g) 


/大 语 数 据 科学 
二 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


[(1]ABCD 
Levels: A« B« C« D 


» str(h) + 查看 数据 对 象 n 的 结构 
Ord.factor w/ 4 levels "A"<"B"<"C"<"D": 1 2 3 4 
> g1(3,50) + 创建 因子 3 个 水 平 ， 每 个 水 平 连续 50 个 


D[s111111111111111111111111111111 
[33] 11111132111111111132112222222222 
[1] 222222222222222222222222222222 
[9] 2222 2222223333332332333333343352333 
[121] 3 3 333333 333 333333333333 333333 3 
Levels: 12 3 
> g1(3,1,9) + 创建 因子 3 个 水 平 ， 每 个 水 平 1 7, BH 9 个 
pniizxst23124g3 

Levels: 12 3 


2.3.7 iB 


矩阵 Cmatrix) 的 维度 是 mXn，m 是 行 的 数目 ，n 是 列 的 数目 ， 每 个 元 素 有 相同 的 格 
式 ， 通 常 都 是 数值 ， 所 以 两 个 矩阵 可 以 相 加 或 相 乘 ， 相 乘 有 如 下 两 种 。 


> matrix(1:12, nrow-3)4 如 图 2-6 所 示 


L1) [,2] [,3] [,4] 
[1,] 1 4 7 10 
[2,] 2 5 8 11 
(3,1 3 6 9 12 


an AER TRE 


matrix (1:12, nrow=3) 


图 2-6 4ER 
> A <- matrix(1:10, nrow-5) 
>A 
L1] [,2] 
[1,] 1 6 
[2,1 2 7 
[3,1 3 8 
[4,1 4 3 
[5,] 5 10 


» B «- matrix(1:10, ncol-2, byrow-TRUE) 
>B 


VOV OM OM 


V VV NOM ON 


L1] [2] 
[2,1 1 2 


[2,] 3 4 
[3,] 5 6 
[4,1 7 8 
[5,] 9 10 
A+B 
[,1] [,2] 
[1,] 2 8 
[2,] 5 11 
[3,] 8 14 
[4,] 11 17 
[5,] 14 20 
A*B 


L1] [21 
(1,1 1 12 
[2,] 6 28 
[3,] 15 48 
[4,] 28 72 
[5,] 45 100 


A &*% t(B) * t(B) 是 B 的 转 置 矩 阵 


[,1] D2] [,3] [,4] [【,5] 
[1,] 13 27 41 55 69 
[2,] 16 34 52 70 88 
[3,] 19 41 63 85 107 
[4,] 22 48 74 100 126 
[5,] 25 55 85 115 145 


(A[2,1) + (A[,1]) ; (A[1,21]) 

127 

(12012345 

[1] 6 
A <- as.vector(A) + 矩阵 A 转 换 成 向 量 
C <- as.matrix(A) + 向 量 A 转 换 成 矩阵 
matrix (x,r,c) + 将 向 量 x 转 为 z 行 c 列 的 矩阵 
matrix(c(1:20), 5,4) 


L1] D2] D31 [4] 
[1,] 1 6 11 16 


[2,] 2 TR- g 

[3,1 3 8 13 18 

[4,1 4 9 14 19 

[5,1 5 10 15 20 
* to) : HEER 
# as.matrix(x) : 将 数据 框 变量 转 成 矩阵 型 态 
# ors o: 矩阵 相 乘 或 矩阵 和 向 量 相 乘 (加 减 + -) 
4 diag(x) : WAWE diagonal 
# det(x) : 行列 式 值 determinant 
# solve(x) : RIEK inverse matrix 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


> # eigen (x) :特征 值 与 特征 向 量 eigenvalue 


2.3.8 数据 杠 


数据 框 (data frame) 是 大 数据 R 语 言 最 常用 的 数据 结构 。 数 据 框 的 数据 常用 命名 为 
“df”。 数 据 框 每 个 列 〈 变 量 ) 的 样本 数目 相同 ， 相 同 列 的 数据 属性 相同 ， 不 同 列 的 数据 
可 以 有 不 同属 性 ， 如 下 例 〈 示 意图 如 图 2-7 所 示 ) k 有 4 行 3 列 : X1 的 属性 是 字符 串 因 子 ，X2 


和 X3 的 属性 是 数值 。 


X1 X2 X3 


图 2-7 ”数据 框 示意 


> k <- data.frame (Xl-c("M","F","M","F"), X2=c(168,170,178,162), 
+ X3-c(68,60,75,52), row.names-c ("Chen", "Lin", "Wang", "Hu") ) 
>k 
X1 X2 X3 

Chen M 168 68 

Lin F 170 60 

Wang M 178 75 

Hu F 162 52 
> sapply(k,class) # k 的 数据 结构 


xi x2 » 
"factor" "numeric" “numeric” 


2.3.9 数组 


BWA (array) 是 多 维 的 矩阵 。 


1.1.7 节 商业 智能 OLAP 多 维 分 析 : 向 上 钻 取 (roll up) 、 向 下 钻 取 Cdrill down) 、 


(slice) 和 切 块 〈dice) 等 数据 结构 应 用 是 数组 数据 。 
如 下 代码 示意 图 如 图 2-8 所 示 。 


切片 


[2, 3, 1] 


L1] L21 63] LA 
图 2-8 ”数组 示意 
> (D <- array(1:24,dim-c(3,4,2))) 


| 


[,1] L2] [,3] [,4] 
[1,] 1 4 7 10 
[2,] 2 5 8 11 
[3,1 3 6 9 i2 


zie 


L1] L2] L3] E41 
[1,1 13 16 19 22 
[2,1 14 17 20 23 
[3,1 15 18 21 24 


> D1 <- array(1:48,dim-c(3,4,2,2)) 
2.3.10 列表 


列表 (Uist) 可 以 将 不 同 结构 的 数据 合并 ， 如 图 2-9 所 示 。 


向 量 


图 2-9 列表 示意 


> listi <= 1ist(c(1,2,3),2:6) 
> list2 <- list(D,1:10,A,listl) 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


[i131 
fri 


L1] L2] D31 [,4] 
[1,] 1 4 7 10 
[2,] 2 5 8 11 
[3,] 3 6 9 12 
17 2 

[,1] L2) (,3] [,4] 
[1,] 13 16 19 22 


[2,] 14 17 20 23 
[3,] 15 18 21 24 


[[2]] 
(4) 1 2 3 4 5 6 7 8 9310 


[[3]] 
[1] 12 34 5 6 7 8 910 


tr411 
[[4]][[1]] 
[1] 1 2 3 


[【[4]][[2]] 
[1]23456 


2.3.11 ”时间 序 列 


示意 代码 如 下 : 


> ts(c(12,15,18,22,20,26,24,28,30,29), frequency = 4, start = c(2001,2)) 
Qtri Qtr2 Qtr3 Qtr4 


2002 22 20 26 24 
2003 28 30 29 


2.3.12 ”访问 数据 类 型 和 结构 


统计 学 和 大 数据 最 重要 的 是 查看 数据 的 类 型 和 结构 。 


> class (x) + 查看 x 的 数据 类 型 
> str(x) + 查看 x 的 数据 结构 
> attributes(x) + 查看 x 的 数据 属性 
> head (x) + 访问 x 前 几 行 的 数据 


> mode (x) 


> typeof (x) 


一 个 数据 结构 在 不 同 的 访问 中 ， 可 能 有 不 同 的 结果 。 


2.3.13 B*E 


NA 表示 missing value，NaN 表 示 not a number，NULL 表 示 empty object. 


> x <= c(2,NA,8) 

> is.na(x) 
[1] FALSE TRUE FALSE 

> mean (x) 
[1] NA 

> mean(x,na.rm-TRUE) # 删除 遗失 值 NA 再 计算 均值 
[13 :5 


2.3.14 读 入 Excel CSV 数 据 


在 Excel 中 保存 文件 ， 选 择 “ 另 存 为 ”保存 类 型 ， 选 择 “CSV (逗号 分 隔 ) ”， 即 可 
保存 AB.csv 文件 ， 可 使 用 R 语言 打开 。 


> AB = read.csv("C:/R/AB.csv",header-T) # iA AB.csv 
» class(AB) 

[1] "data.frame" 
» AB[1:3,] 


2.3.15 ”编辑 数据 


> + 在 数据 编辑 器 双击 左 键 ， 开 始 修改 档案 ， 关闭 数 据 编辑 器 


> AB <- edit(AB, editor = "xedit") 


2.3.16 保存 Excel CSV 数 据 


> write.csv(AB, file = "C:/R/AB.csv") 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实 成 (基于 R 语 言 ) 


2.3.17 ”数据 输入 窗口 


打开 窗口 输入 数据 。 


> X <- data.frame(Xl-character(0), X2- character(0), X3-numeric(0)) 
> X «-edit(X) 4 X1, X2 当 作 因子 factor 


2.3.18 R 的 数据 结构 和 函数 表 


了 的 数据 结构 和 函数 表 如 表 2-2 所 示 。 
表 2-2 ”RR 的 数据 结构 和 函数 
数据 结构 说 明 
| as.numeric("2") 双 精 准 数值 


| as.integer(2.5) 


整数 
ET dance) 


有 序 因子 Corderedfactor) —|ordered() 字符 串 向 量 ， 有 序 分 类 


二 维 表格 ， 元 素 有 相同 属性 


二 维 表格 ， 行 是 记录 ， 列 是 变量 
每 行 可 以 属性 不 同 ， 长 度 相同 


多 维和 矩阵 ， 元 素 有 相同 属性 
多 维 结构 ， 每 维 各 种 结构 组 合 


时 间 序 列 
遗失 值 (missingdata) | 遗失 值 
函数 的 数据 结构 as(x, "transactions") 关联 规则 apriori 的 事务 数据 
o R 的 函数 包 
先 下 载 R 程 序 包 。 


> install.packages ("arules") 


> library (arules) 


#08 ENG 


包 (packages) 是 一 组 内 函数 、 数 据 和 说 明文 件 组 成 ， 分 为 3 种 类 型 。 
COD 基本 包 : R 语言 内 建 包 ， 约 30 个 包 ， 如 base, stats, graphics. 


基本 包 的 函数 是 自 带 的 函数 ， 不 需要 安装 额外 的 包 。 
(2) 建议 包 : 建议 下 载 的 包 ， 如 ggplot2. 


(3) 贡献 包 : 需要 执行 安装 R 函数 ， 就 要 下 载 的 包 ， 如 arles. 
函数 是 属于 包 ， 但 是 有 些 函 数 在 许多 包 都 有 ， 例 如 : 函数 predict。 

包 :: 函 数 、 函 数 { 包 } 表示 其 关系 ， 例 如 : arules::apriori 8X apriori (arules] 。 
2019 年 R 有 14594 个 包 ， 请 见 MRAN (the Microsoft R Application Network) 。 


本 书 应 用 的 R 包 和 函数 如 表 2-3 所 示 。 


表 2-3 ”本 书 应 用 的 R 包 和 函数 


cluster 
NbClust 
stats 
philentropy 

stats, scales 


psycho 


gplot() 
apriori(), crossTable(), itemFrequencyPlot() 


函数 


Tecommenderlab 


Recommender() 


class 


knn(). train() 


MSPQ, JRip). J480 


naiveBayes() 


train() 


tune.svm() 


ksvm() 


bagging() 


bagging(). boosting() 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 Ri 语言 ) 


建议 : 将 上 列 包 除 了 stats， 其 他 先 下 载 安装 , 如 > install.packages ("ggplot2")。 
或 > if(!require (ggplot2)){install.packages ("ggplot2")} # 若 没有 安装 ， 则 安装 。 


本 书 应 用 R 语 言 的 数据 集 如 表 2-4 所 示 。 
#24 ”本 书 应 用 R 语 言 的 数据 集 (C:/R/ 数据 包含 在 本 书 下 载 包 ) 


eu | 文件 名 | 数据 来 源 : package/ | 
filename library 
qplot 


apriori 


de ex — e — ee] 
je — en eem pne] 


NHLtrain 


.|2012MLB 


§ 5.4.6 

§ 6.6.2 

§ 6.6.3, § 8.4.3 
$7441 

$742 

$743 

$744 

$844 

$84.5 

$943 

$10.65, $11.74 
$10.67, § 12.7.3 
§ 10.6.11 


文件 名 数据 来 源 : package/ 
filename 


数据 data | 


| 函数 function | 


R 的 数据 绘图 


用 及 函数 包 “ggplot2” 的 数据 集 “diamonds” 钻 石 ， 来 说 明 R 的 数据 绘图 。 


钻石 数据 


钻石 数据 是 数据 框 的 结构 ， 有 53940 行 〈 样 本 ) ，10 FJ CERO : 
(1) 价格 Price 美金 $326--$18，823 

(2) 克拉 Carat 质量 0.2--5.01 

(3) 切割 Cut Fair, Good, Very Good, Premium, Ideal 

(4) 色泽 ColorJ Cworst) to D (best) 

(5) 净 度 Clarity I1. (worst) , SI2, SII, VS2, VSI, VVS2, VVSI, IF (best) 
(6) K X length in mm (0--10.74) 

(7) 38 Y width in mm (0--58.9) 

(8) 高 Z depth in mm (0--31.8) 

(9) X Depth -z/ mean (x, y) =2*z/ (x+y) (43-79) 
(10) 形状 Table = top of diamond relative to widest point (43--95) 


[ R 例 2.1 ] 444842: diamonds, AM{B}: aplot ggplot {ggplot2} 


> # R 例 2.1 

> if(!require (ggplot2)){instal1.packages ("ggplot2")} ; library (ggplot2) 
> if(!require (GGally) ) {install.packages("GGally")} ; library(GGally) 

> data(diamonds);str(diamonds) # 数据 有 53940 个 样本 ，10 个 变量 有 数值 整数 和 因子 


/大 语 数 据 科 学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


head (diamonds) ; summary (diamonds) 4 描述 统计 

price «- diamonds$price ; qplot (price, data - diamonds) 
hist(price, prob-TRUE, xlab - "Price", main - "") 

lines (density (price)) 

abline(v = mean(price), col = "red") # 红线 是 均值 平均 数 
abline(v = median(price), col = "blue") # 蓝 线 是 中 位 数 
qplot (carat, price, data = diamonds) 


qplot (log(carat), log(price), data=diamonds, colour=color) 


ggpairs (diamonds[,1:5]) 


ggpairs (diamonds[,3:8], aes(colour = color, alpha = 0.4 ), title 
"Diamonds ") + theme(plot.title = element text(hjust = 0.5)) 
ggpairs (diamonds[,2:7], aes(colour = cut, alpha = 0.4 ), title = 
"Diamonds", upper = list(continuous = "density"), lower = list 
(combo ="denstrip") )+theme(plot.title=element_text (hjust = 0.5)) 
qplot (color, price / carat, data = diamonds, geom ="jitter") 
set.seed (1234) + 随机 乱 数 种 子 ， 为 使 每 次 计算 结果 相同 

dsmall «- diamonds [sample (nrow (diamonds), 100),] 4 抽样 100 个 钻石 
qplot (carat, price, data = dsmall, colour = color) 

qplot (carat, price, data = dsmall, shape = cut) 

qplot(carat, price, data - dsmall, geom - c("point", "smooth")) 
qplot (depth, data-diamonds, binwidth-0.1,xlim-c(58,68), fill-cut) 
qplot (cut, depth, data-diamonds, geom-"boxplot") 

ggplot(diamonds, aes(factor(cut), price, fill-cut)) + geom boxplot() 
ggplot(diamonds, aes(factor(clarity), price, fill-clarity)) 

geom boxplot() 

ggplot(diamonds, aes(y-carat, x-cut)) + geom violin() # 小 提琴 图 
ggplot(diamonds, aes(clarity, depth)) + geom violin() 


WM WN NN WY 


pairs (diamonds[,c ("depth", "price","carat","color","clarity","cut")]) 


如 图 2-10 一 图 2-15 所 示 。 
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图 2-10 钻石 价格 直方 图 


cut 

Es Fair 

= Good 
EB very Good 
= Premium 
ES ideal 


Fair Good Very Good Premium Ideal 
factor(cut) 


图 2-11 ”钻石 价格 和 切割 箱 线 图 


/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 RR 语言 


carat 


Fair Good Very Good Premium 
cut 


图 2-12 ”钻石 克拉 和 切割 小 提琴 图 
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图 2-13 ”钻石 价格 和 净 度 箱 线 图 
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图 2-14 ”钻石 变量 相关 系数 1 
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图 2-15 ”钻石 变量 相关 系数 2 


aqe; 


asud 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实 战 ( 基于 R 语 言 ) | 


e 本 章 思维 导 图 | 


100 1000 10000 
g 4j V PAK 
大 数据 进位 英文 103: K, M, G, T 
数字 存储 : MB, GB, TB 


数值 : 3.142; 整数 : 1, 2,3 
定 比 > 定 距 > 定 序 > 定 类 ?> 非 数 值 
因子 factor: A, B 
actor: A, By 
HH 


数据 属性 
逻辑 : T, F; FR: "A", "B" 


向 量 vector Pp d 


大 数据 与 Ri 


数据 结构 : R 例 数据 


列表 list d E + in 
Ql Qu2 Q3 Qu4 


12 15 18 


2016 
时 间 序列 ts 2017 22 20 26 24 
2018 28 30 29 


数据 结构 和 函数 表 


程序 包 : :函数 ， 函 数 程序 { 包 } 
| FR 安装 install.packages ("4"); library (&1) 
| BA, 储存 Excel CSV 数 据 ， 编 辑 数据 


RH pem ggplot2::ggpairs 


= ggplot2::ggplot 
钻石 diamonds 数据 : R 例 2.1 > 


第 一 篇 “ 非 监督 式 学 习 


非 监 督 式 学 习 ( Unsupervised Learning ) 是 机 器 学 习 的 
一 种 算法 ， 其 目的 是 去 对 原始 数据 进行 分 类 ， 以 便 了 解数 
据 内 部 结构 。 非 监督 式 学 习 在 学 习 时 并 不 知道 其 分 类 结果 
是 否 正确 ， 没 有 受到 监督 ( 被 告知 正确 的 学 习 方 向 ) 。 仅 
输入 数据 ， 而 它 会 自动 从 这 些 数据 中 找 出 潜在 规则 。 当 学 
习 完 毕 并 经 测试 后 ， 可 以 将 之 应 用 到 新 的 案例 上 。 

本 篇 内 容 涵盖 各 种 监督 式 学 习 算 法 和 案例 。 
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关联 分 析 


不 遇 盘 根 错 节 ， 无 以 别 利器 ， 此 乃 吾 立功 之 秋 也 。 
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e 关联 分 析 介绍 | 


关联 规则 分 析 (association rules) 是 数据 挖掘 的 购物 篮 分 析 (market basket analysis) , 
即 : 从 顾客 的 交易 中 发 现 买 A 产 品 的 顾客 可 能 会 买 B 产 品 。 例 如 ， 尿 布 与 啤酒 的 故事 ， 每 
星期 四 晚上 ， 买 尿布 的 顾客 的 交易 事务) 多 数 会 买 啤酒 。 营 销 应 用 在 推荐 商品 、 交 叉 促 
销 、 商 店 布置 等 。 关 联 规则 还 应 用 在 许多 领域 ， 包 括 : 网 站 页 面 分 析 、 广 告 使 用 分 析 、 用 
户 关键 词 搜寻 、 入 侵 检 测 、 连 续 生 产 及 生物 信息 学 等 。 

图 3-1 是 关联 规则 名 词 概 念 图 。 


支持 度 
数据 支持 度 前 项 置信 度 
事务 格式 项 目 集合 项 集 MA 频繁 后 项 gk PUR 强 关联 评价 应 用 
1，2， 3 7 A B X, Y Apriori 项 集 XY 规则 Apriori 规则 结论 
图 3-1 关联 规则 名 词 概念 
3.1.1. 事务 与 项 目的 定义 
关联 分 析 的 数据 表示 如 图 3-2。 
事务 标识 项 目 项 集 X | AB  EFG 
sy 
TDIABC DÍE F Gj AxB ExFxG TID 项 集 
1/101 1010| 0 0 Dp AvGxD.F 
事务 | 2 |1 100 1 1 1 1| 1 1 2| A; B,D, E;F, G 
集 台 1 3/1 11 1 00 0] 1 0 ”事务 4 3 | ABCD 
D | 4/0 0 1 14 t 0| O 0 4| C,D,E,F 
5|0000000| 0 0 5 
l-eount| 3 2 3.4 2. 3 1| 2 1 
支持 度 | .4 4 .6 8 4 6 .2| 4 2 
(a) 二 元 关联 矩阵 (b) 事务 数据 库 
图 3-2 关联 分 析 的 数据 表示 
定义 关联 分 析 的 名 词 : 


(D MH (Citem) : 商品 或 物品 名 称 ， 例 如 A、B、 尿 布 、 啤 酒 。 
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(2) 项 目 集 或 称 项 集 Citemset) : 一 个 及 一 个 以 上 项 目 集合 ， 例 如 {A}、{B}、{A， 
B}、{ 尿 布 ， 啤 酒 }。 项 目 或 项 集 是 数据 框 的 列 。 

项 目 是 变量 ， 用 A，B，C 表示 ， 也 会 当 作 项 集 。 

项 集 是 集合 ， 用 义 ，Y 表示 ,例如 义 = {A} HWA, X- (A, B) 简 记 AB. 

X=AB, Y=EFG, XU Y-ABEFG. 

(3) 项 集 (k- itemset) : 包含 个 项 目的 集合 。ABEFG 是 5- 项 集 。 

(4) 空 项 集 (empty itemset) : 没有 项 目的 集合 ， 例 如 { }。 

(5) 事务 标识 (TID) : 顾客 的 标记 。 数 据 框 的 行 。 

(6) 事务 〈transaction) : 顾客 的 交易 ， 例 如 {A=1，B=0，C=1}、{ 尿 布 =1， 啤 酒 =0}。 

(7) 零 事 务 (null transaction) : 没有 交易 的 事务 ， 例 如 图 3-2 的 TID = 5. 

(8) 支持 度 (support) : 项 集 X={A} (fai A) 的 支持 度 ，# 表示 数目 。 

Support(A)= S(A)- #{3#4i | A=1} / n. n - &(D)- 所 有 事务 的 数目 。 

S(A)- {A=1 的 事务 的 数目 } / {所 有 事务 的 数目 }。 

Support({A，B})= S(AB)=#{ 事 务 i| A=1,，B=1} /n=#(AXB)/n。 

S(AB)- # {A=1 且 B=1 的 事务 的 数目 } / {所 有 事务 的 数目 }。 

S(X)- 区 所 有 事务 = 1 的 数目 } / {所 有 事务 的 数目 }。 

S(A) 研 SAB)， 项 集 的 项 目 越 多 ， 支 持 度 就 越 小 。 

Ss(X)=SCXUY)，S(D=SCXUY)， 对 所 有 项 集 X，Y。 

(9) 子 项 集 (subitemset) 与 超 项 集 (superitemseO : 若 项 集 X, Y, XCY, MIX MH 
WY 的 子 项 集 ; v 称 为 X 的 超 项 集 。 例 如 X=AB，Y=ABC，X 是 子 项 集 ，Y 是 超 项 集 。 

Support 〈 子 项 集 ) [Support GUE) , S (THE) SS EME) 

(10) SCKEBEB], Eht (minimum support threshold) : Jf, EFREN TEE. 
id E Minsupport. 

C11) 频繁 项 集 (frequent itemset) : MÆ X 的 支持 度 大 于 最 小 支持 度 阔 值 ， 称 为 频繁 
项 集 S(X) > Minsupport。 

(12) 所 有 频繁 项 集 的 子 项 集 ， 都 是 频繁 项 集 。 

青 〈 子 项 集 频繁 ) 出 于 蓝 〈 是 因为 超 项 集 频繁 ) ， 而 胜 于 蓝 〈 子 项 集 比 超 项 集 更 
频繁 ) 。 

(13) 所 有 非 频 繁 项 集 的 超 项 集 ， 都 是 非 频繁 项 集 。 非 频繁 的 子 项 集 ， 其 超 项 集 一 定 
是 非 频繁 。 子 不 教 〈 子 项 集 非 频繁 ) ， 父 之 过 《〈 因 为 超 项 集 非 频繁 ) 。 


3.1.2 ”项 集 的 关联 规则 


关联 规则 可 以 用 条 件 概率 检查 ， 买 什么 东西 的 顾客 ， 会 再 买 什么 东西 。 例 如 ， 买 尿 片 
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的 ， 会 买 啤酒 ，P 〈B 买 啤酒 |A 买 尿 片 ) >P 〈B 买 啤酒 ) 。 

若 两 个 项 集 X，Y， 其 交集 为 空 集合 XNY ={}， 即 X，Y 没 有 共同 的 项 集 ， 则 项 集 X， 
了 的 关联 规则 X 一 Y，X 称 为 规则 的 前 项 或 先导 (antecedent 或 left-hand-side，lhs) , Y 称 为 
规则 的 后 项 或 后 继 Cconsequent&kright-hand-side, rhs) 。 

AB 一 ACD 不 能 成 为 规则 。 

关联 规则 的 测量 有 如 下 几 项 。 

(1) 支持 度 (support) : XX 一 了 的 支持 度 : 规则 的 有 用 性 。 

Support(X— Y)- S(X—Y)= S(Y—X)- S(XU Y) 

(2) 置信 度 〈confidence) : X 一 Y 的 置信 和 度 : 规则 前 项 〈 因 ) Jat GR) 的 可 信 度 或 
确定 性 。 

置信 度 是 条 件 概率 : P (顾客 买 Y | 顾客 买 X) 。 请 参考 《大 话 统计 学 》5.5 节 。 

Confidence(X 一 Y)= C(X—Y)- S(X- YY S(X) 

GO EAR AdO : X~~Y 的 提升 度 :顾客 买 X 带 给 购买 Y 信息 的 提升 度 。 

Lif(X— Y)- L(X—Y)- C(X-Y)/ S(Y)- S(X- Y) [SQQ X S(Y)] 

在 数据 挖掘 称 为 提升 度 ， 在 购物 篮 分 析 称 为 改善 度 Cimprovement) 。 项 集 X 搭 配 项 集 
Y 销 售 ， 是 单独 销售 项 集 Y 结 果 的 L(X 一 了 ) 倍 。L(X 一 Y) 可 能 <1，=1, R >l 

事物 频数 如 表 3-1 所 示 。 


表 3-1 事务 频数 表 
NotB(B=0) | 


| | 
BE | + | o | 


| Nu | e 0] ua | 
[La | bd atten 

支持 度 S(A)=(atb)/ n; 

支持 度 S(B)-(a*c)/n; 

支持 度 SA 一 B)=a/n= SGB 一 A); 

置信 度 C(A>B)= a /(a*b); 

置信 度 C(B— A)- a (atc); 

提升 度 L(A 一 B)= a(atb+c+d)/(atb)(atc)= L(B—A); 

若 提 升 度 Lift= 1， 则 A 和 B 是 独立 的 。 因 为 a X n=(a+b)X(atc)。 

车 提升 度 Lift > 1， 则 A 和 B 是 (互相 ) 正面 提升 的 。 

车 提升 度 Lift < 1， 则 A 和 B 是 (互相 ) 负面 提升 的 。 

但 是 ， 提 升 度 会 受到 零 事 务 和 样本 数 的 影响 。 

以 上 有 关 统 计 学 的 独立 和 条 件 概率 ，《 大 话 统计 学 》 中 第 5 章 有 详细 说 明 。 

(4) ZER (minimum support threshold) ， 阅 又 叫 阔 值 ， 支 持 度 门 槛 值 。 记 作 
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Min support. 
C5) EMSBEB] (minimum confident threshold) ， 置 信 度 门槛 值 。 记 作 Min confident. 
通常 支持 度 要 大 于 0.1， 置 信 度 要 大 于 0.1 或 0.2， 提 升 度 要 大 于 1， 正 面 信息 。 但 是 当 
项 目 〈 变 量 ) 越 多 时 ， 支 持 度 会 越 小 。 
(6) 强 关 联 规则 。 
Support(X— Y)- S(X— Y)» Min support 
Confidence(X— Y)- C(X— Y)» Min confident 
CD 支持 度 和 提升 度 符合 交换 律 ， 置 信 度 不 符合 交换 律 。 
Support(X— Y)- Support(Y- X), S(A—B)- SGB 一 A) 
Confidence(X— Y)z^ Confidence(Y-— X), C(X-—Y)- C(Y >X) 
Lift(X—Y)- Lift(Y—X), L(X—Y)- L(Y>X) 
(8) Support(() — X)- Support(X) 
Confidence(() —X)- Support(X), Confidence(X— {})= 1 
Lift({}> X) 1 


注意 : 一 个 项 集 只 有 最 小 支持 度 阅 记 作 Minsupport， 没 有 最 小 置信 和 度 阅 ; 两 个 项 
集 的 关联 规则 有 最 小 支持 度 闪 Min_support 和 最 小 置信 度 阀 Min_confident。 没 有 最 小 提 
升 度 阅 。 设 定 阅 值 通常 为 Minsupport = Min support; 

在 R 语 言 参 数 用 supp = Min_support, conf = Min_confiden。 


e 关联 规则 数据 格式 


项 目 与 事务 的 数据 格式 有 以 下 五 种 。 

(1) 二 元 关联 矩阵 (binary incidence matrix) : 如 图 3-3 (a) 所 示 ， 这 种 格式 的 数据 ， 
可 以 储存 为 Excel 的 .csv 格 式 ， 行 是 事务 标识 ， 列 是 项 目 ，1 表 示 该 事务 购买 了 该 项 目 。 

(2) 事务 数据 库 (transactions database) : 如 图 3-3 (b) 所 示 ， 这 种 格式 的 数据 ， 可 
以 储存 为 Word 的 txt 格式 ， 每 个 事务 储存 它 所 包含 的 项 集 。 

G) 因子 项 目 数据 框 (data frame) : 事务 数据 的 数据 框 表示 ， 适 合 有 因子 的 项 目 ， 
如 图 3-3 Cc) 所 示 ， 项 目 A 有 A,，A,，A,，3 个 水 平 。 每 个 事务 在 每 个 因子 有 一 个 水 平 。 

(4) 事务 频数 表 (transaction frequency table) : 如 图 3-3 (d) 所 示 ， 计 算 各 项 集 的 对 
务 频 数 ， 例 如 #{A=0，B=0，C=0}=24。 储 存在 RR 表格 的 格式 。 

(5) 事务 表格 式 : 如 图 3-3 Ce) 所 示 ， 每 行 一 个 TID 一 个 项 目 ， 可 以 储存 为 .csv 
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格式 。 
事务 标识 项 目 
TDIABCDEFSG TID 项 集 TID | 项 目 
1]|101 1010 1 |ACDF "e 
35512 110011 I 2 |A,B,E,F,G 
6431111000 事务 4 3 |A, B,C, D rye 
D |i |i p: 1 | D 
»|0000000 n 1 F 
(a) 二 元 关联 矩阵 (b) 事务 数据 库 〈 购 物 篮 ) 2| B 
2 | E 
项 目 ( 因 子 ) ,C=0 J 2 F 
TDIA B C D E B 2 | G 
Vb A B.G. D E 3 | A 
2 |A B, C D, E AJO I| AJO 1 "s 
事务 13 A BG D E| 0/24 6| 0/16 20 2 |a 
n |A, B, C, D, E, 1110 12) 1/8 15 1! | 3 


Cc) 因子 项 目 数据 框 (d) 事务 频数 表 (e) 事务 表格 式 
图 3-3 ”数据 表示 


图 3-3 (D 是 三 个 纬度 的 表 ， 表 内 数字 是 频数 ， 事 务 的 项 目 A=0，B=0，C=0 有 24 个 。 

关联 规则 分 析 要 注意 数据 格式 ，R 语言 函数 arules::apriori 可 以 处 理 (a) 、 (b) 、 
(c) 三 种 格式 。 (D. (Co) 的 格式 要 在 程序 中 转换 为 数据 格式 ， 可 以 用 arules 包 进 行 
转换 。 


> library (arules) 
» showMethods ("coerce", classes-"transactions") 


» data «- as(data,"transactions") 


请 见 本 章 3.6.1 节 泰坦 尼克 号 的 关联 规则 实例 计算 。 


e 关联 规则 的 算法 


Apriori 算 法 ， 是 翻译 为 先 的 验算 法 ，1994 年 由 Agrawal & Srikant 等 首先 提出 ， 是 最 为 著 
名 且 广 泛 运用 的 关联 规则 算法 。Apriori 算 法 是 基于 广度 优先 的 算法 。 另 外 有 Eclat 算 法 ， 是 
基于 深度 优先 的 算法 ， 还 有 FP 成 长 树 算法 ， 不 在 此 获 述 。 


ss 


3.3.1 Apriori 算 法 


Apriori 算 法 分 成 两 部 分 : 第 一 部 分 ， 计 算 所 有 的 频繁 项 集 ， 第 二 部 分 ， 计 算 所 有 的 强 
关联 规则 。Apriori 算 法 概念 如 下 。 
d) 设 定 关联 规则 ， 一 个 项 集 的 最 小 支持 度 阐 Minsupport; 两 个 项 集 关 联 规则 的 最 小 
支持 度 阔 Min_support 和 最 小 置信 度 冰 Min_confident。 通 常 Minsupport = Min support. 
(2) 根据 最 小 支持 度 阅 Minsupport， 计 算 所 有 的 频繁 项 集 ，k = 1。 
D 找 出 上 项 集 所 有 频繁 项 集 。 
2) BRE) 若 其 中 有 非 频 繁 项 集 ， 则 其 超 项 集 为 非 频繁 项 集 ， 予 以 删除 。 
3) k=k+1, [$]250 ， 直 到 所 有 n- 项 集 被 计算 或 删除 。 
(3) 根据 最 小 置信 和 度 阔 Min_confident， 计 算 的 强 关联 规则 。 
根据 频繁 项 集 的 规则 ， 计 算 强 关联 规则 。 
剪 枝 步骤 根据 下 列 定理 。 
如 果 规 则 X 一 Y-X 不 是 强 关 联 规则 ， 不 满足 置信 度 阔 值 ， 则 Z 一 立 Z 也 不 是 强 关 联 规 
则 ， 其 中 Z 是 X 的 子 项 集 。 
例如 : Y-ABCD, X=BCD, Y-X=A, Z-B, Y-Z=ACD 
如 果 BCD 一 A 非 强 关联 规则 ， 则 B 一 ACD 非 强 关 联 规则 。 
非 强 关 联 规则 有 两 个 条 件 : 
(1) S(BCD—A)=S(B—ACD)=S(ABCD)< Min support 
(2) C(B—ACD)= S(ABCD)/S(B)< S(ABCD)/S(BCD)- C(BCD—A)< Min confident 
因为 S(B) > S(BCD) 
具体 如 图 3-4 和 图 3-5 所 示 。 


图 3-4 Apriori 算 法 计算 频繁 项 集 的 剪 枝 步骤 
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图 3-5 Apriori 算 法 的 计算 强 关联 规则 


3.3.2 ”关联 规则 其 他 测度 值 


项 集 关 联 的 测度 值 ， 除 了 支持 度 ， 置 信 度 ， 提 升 度 ， 关 联 规则 的 测量 还 有 许多 测度 
fü. (参考 网 站 http://michael.hahslernet/research/association rules/measures.html) o 
在 了 R 语 言 的 关联 规则 包 中 arules 的 函数 interestMeasure() 可 以 有 这 些 测 量 。 如 表 3-2 


表 3-2 事务 频数 表 


下 列 关 联 规则 测度 值 ， 没 有 前 项 后 项 (4 一 B 或 B 一 4) 的 差别 (交换 律 ) ， 只 有 关联 ， 
没有 因果 的 规则 。 除 了 置信 度 有 前 项 后 项 的 差别 。 
(D x 期望 值 : 


3 (a *b)(a*c) 
$ ele ahead) 
如 果 a>x (4,B)， 则 提升 度 > 1。 

(2) 互信 息 (mutual information) : 


7 P(ANMB) \_ a(a+b+c+d) 
M48) | (a+b)(a+c) | 


(3) Jaccard 系数 : 
#(AxB) P(ANB) a 
#(AUB) P(AUB) atbt+c 


J(4,B)- 


(4) 全 置信 和 度 (all confidence) : 

All conf(4.B)-min {P(A|B).P(B|A)} 
(5) 最 大 置信 度 : 

max conf(4,B)-max (P(A|B).P(B|A)) 
(6) 余弦 度量 Cosine 测 度 : 


. P(ANB) T 
Cosine( 4, B) = Para Um P(B|A) 


(7) 杠杆 率 (leverage) : 
leverage(4— B)= Support(4—>B)— Support(4)*Support(B) 
杠杆 率 类 似 提升 度 ，leverage(4 一 B)>1 是 正 相 关 ; leverage(4 一 B)=1 是 独立 ; 
leverage(4 一 B)< 1 是 负 相 关 。 
(8) Phi 相 关系 数 Phi correlation coefficient : 
HAB ad-cb 
Tem (a+b)(c+d)(b+d) 


(9) Kulczynski 测度 : 
Kulc( A4, B) - (0.5) [P( 4| B) P(B| 4)] 
(10) MRE (conviction) : 
Conviction(4- B)-[1 — Support(B)] / [1 — Confidence(4 —B)] 

确信 和 度 或 定罪 率 Conviction(4— B)- 1.2 表示 有 20% 的 错误 率 。 
(11) 失调 率 (imbalance ratio) 不 平衡 比 : 

|#(4)-#(B)| z lb - e| 
#(A)+#(B)-#(AxB) |a+b+c| 

以 上 测度 值 (1) ~ (9) 测量 值 越 高 ， 表 示 A. B 的 关联 越 好 ，〈10) 确信 度 和 
OD 失调 率 是 越 低 越 好 。 


IR(4,B) = 


3.3.3” 负 关联 规则 


关联 规则 是 计算 两 个 项 集 的 关联 ， 以 购物 篮 来 说 ， (A 一 B)〉 是 已 经 买 了 项 集 A， 会 再 
买 项 集 B 的 概率 。 例 如 ， 顾 客 买 了 面包 ， 还 会 再 买 牛奶 的 概率 。 

负 关 联 规则 (A+B) 是 没有 买 项 集 A， 会 买 项 集 B 的 概率 。 或 者 CA—CBO 是 买 项 集 
A， 不 会 买 项 集 B 的 概率 。 例 如 ， 顾 客 买 了 豆浆 ， 就 不 会 再 买 牛奶 的 概率 。 

请 见 3.6.2 节 【了 R 例 3.4】 商 店 数据 有 负 关 联 规则 的 R 程 序 代码 。 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


o 关联 规则 的 优点 和 缺点 | 


3.4.1 Apriori 算 法 的 优点 


Q) Apriori 是 一 个 有 系统 的 步骤 ， 经 过 生成 所 有 的 频繁 项 集 和 强 关联 规则 ， 两 阶段 都 
进行 剪 枝 ， 降 低 了 计算 量 ， 提 升 了 计算 速度 。 

(2) 关联 规则 的 产生 结果 ， 很 容易 了 解 。 

GO 有 用 的 数据 挖掘 方法 ， 可 以 产生 没有 预期 的 信息 或 知识 。 


3.4.2 Apriori 算 法 的 缺点 


(1) 关联 规则 的 变量 ， 只 能 应 用 于 0-1 变 量 、 因 子 〈 分 类 ) 变量 和 有 序 因子 〈 等 级 变 
量 ) ， 数 值 变 量 要 转换 为 因子 变量 。 请 见 【R 例 3.6】 和 【R 例 3.7】。 

(2) 每 次 增加 频繁 项 目 集 的 大 小 ， 计 算 项 集 的 支持 度 ， 都 需要 对 数据 库 中 的 全 部 记录 
进行 一 遍 扫描 比较 ， 当 数据 集 很 大 时 ， 频 繁 项 目 集 的 生成 速度 会 显著 降低 。 

G) 对 于 大 型 的 数据 库 ， 存 储 和 计算 的 代价 随 记录 的 增加 呈现 出 几何 级 数 的 增加 。 

(4) 算法 的 有 效 性 有 待 改善 。 


3.4.3 ”关联 规则 的 评估 


关联 规则 的 评估 ， 有 下 列 重点 。 

CD 考虑 3.3.2 节 其 他 测度 值 ， 比 较 其 结果 。 

(2) 是 否 可 以 将 规则 化 为 行动 Cactionable) 。 请 见 3.5.3 节 。 

(3) 这 些 规则 是 否 很 平常 、 不 重要 、 无 价值 (trivial) ， 例 如 : 买 尿布 会 买 婴 儿 
奶粉 。 

(4) 这 些 规则 是 不 明显 的 、 但 有 用 的 Ginexplicable) ， 像 是 挖掘 到 宝石 的 惊奇 。 

C5) 关联 规则 是 监督 式 还 是 非 监督 式 ? 监督 式 与 非 监督 式 的 差别 在 于 目标 变量 ， 关 联 
规则 可 以 将 目标 变量 放 在 规则 的 后 项 ， 检 查 其 关联 ， 例 如 3.6.1 节 泰坦 尼克 号 的 旅客 存活 的 


变量 。 


eo 关联 规则 的 实例 计算 


先 用 两 个 小 数据 [尿布 与 啤酒 〈 数 据 挖掘 的 老 故事 ) ， 豆 浆 、 烧 饼 与 饭团 ] 计 算 项 目 和 
规则 ， 说 明 关联 规则 的 计算 ， 再 用 及 语言 计算 比较 结果 。 


3.5.1 尿布 与 啤酒 


尿布 与 啤酒 的 故事 : 买 尿布 (项 集 ) 的 顾客 (事务 ) 多 数 会 买 啤酒 〈 项 集 ) 。 


O 数据 
数据 中 有 50 个 事务 ， 取 尿布 与 啤酒 两 个 项 目 ， 如 图 3-6、 图 3-7 所 示 。 


|. A | B | c | | E | F | 6 | m | I 
1 TID A But B 啤酒 A*B 
2 1 1 1 1 列 联 表 B 非 B 
3 2 1 1 1 A 24 6 30 
4 3 1 0 0 非 A 10 10 20 
5 4 0 1 0 34 16 50 
6 5 0 0 0 
7 6 1 0 0 支持 度 S(A—B) 0. 48 
8 7 0 1 0 BiH C(A—B) 0.8 
9 8 1 1 1 提升 度 L(A 一 B) 1.176471 
50 49 1 1 1 
51 50 0 0 0 
52 30 34 24 


图 3-6 ”尿布 与 啤酒 数据 


YE: a= 买 尿布 + 啤酒 人 数 ，b= 买 尿布 不 买 啤酒 人 数 ，c= 不 买 尿布 买 啤酒 人 数 ，d= 尿 布 啤酒 都 不 买 人 数 
图 3-7 尿布 与 啤酒 的 数据 


[ise 
7 RESET ILE (基于 R 语 言 ) 


四 计算 
尿布 与 啤酒 的 实例 计算 如 图 3-8 所 示 。 


图 3-8 ”尿布 与 啤酒 的 实例 计算 


支持 度 ( 尿 布 一 啤酒 ) = a /(atb+c+d)= 24/ 50 = 0.48 

置信 和 度 ( 尿 布 一 啤酒 ) =a /(atb)= 24/30 = 0.8 

提升 度 (尿布 一 啤酒 ) = a(atb+c+d)/(atb)(atc)= 24X50/(30X34)= 1.18 

期 望 值 ，x?(4,B)=20.4，24 > 20.4。 

所 以 ， 尿 布 与 啤酒 有 正面 的 信息 ， 提 升 度 大 于 1. 

但 是 ， 如 果 零 事务 ‘A=0，B=0) 增加 或 减少 ， 会 改变 支持 度 和 提升 度 ， 如 图 3-9 


支持 度 (ADB) =24/100=0.24 支持 度 (ADB) =24/40=0.6 
置信 度 CAS B) =24/30=0.8 置信 和 度 (ADB) =24/30=0.8 
提升 度 CAS B) =24x100/ (30x34) =2.35 提升 度 CAS B) =24x40/ (30x34) =0.94 


图 3-9 ”尿布 与 啤酒 增加 或 减少 零 事务 会 改变 支持 度 和 提升 度 


两 个 项 目 (或 项 集 ) 的 支持 度 、 置 信和 度 、 提 升 度 ， 其 测度 值 越 高 ， 显 示 两 个 项 集 的 关 
联 越 大 。 但 是 ， 支 持 度 和 提升 度 会 受到 零 事 务 (A=0，B=0) 和 样本 数 的 影响 。 所 以 Jaccard 
系数 就 没有 将 零 事 务 计算 在 测量 里 面 。 

35, BOUE (A>B) ASMA (B 一 A) ， 可 能 会 发 生 置信 度 CA—BO 很 高 ， 
但 是 置信 度 B>A) 很 低 的 现象 。 

全 置信 度 ， 最 大 置信 度 和 Kulczynski 测 度 的 取 值 都 是 从 0 一 1， 值 越 大 ， 关 联 越 大 ， 不 受 
零 事务 影响 。 


z0: EZA 


@@R 语 言 
将 图 3-6 尿 布 与 啤酒 数据 的 Excel 表 另存 为 AB.CSV， 保 存 类 型 为 CSV (逗号 分 隔 ) 。 
这 是 二 元 关联 矩阵 格式 ， 不 用 转换 ， 可 以 直接 用 apriori 函 数 。 


[ R 例 3.1 】 尿 布 与 啤酒 : AEAB.csv, AMapriori, inspect{arules} 


数据 框 格式 data.frame: 50 个 观察 值 2 个 变量 


> # R 例 3.1 
> if(!require (arules)) (install.packages ("arules") } 
> library (arules) AB 
> AB = read.csv("C:/R/AB.csv",header-T) # 读 入 AB.csv : : : 
> head(AB) # 数据 AB 的 前 6 个 事务 310 
> class(AB) # 数据 AB 的 结构 Taa 
> AB-as.matrix(AB) : : : 
» str(AB) + 数据 aB 的 结构 类 别 
> rule- apriori (AB,parameter-list (supp=0.2,conf=0.5,maxlen=5)) 
> inspect (rule) 
关联 规则 的 分 析 结 果 。 

lhs rhs support confidence lift count 


[1] () => {A} 0.60 0.6000000 1.000000 30 
[2] {} => (B) 0.68 0.6800000 1.000000 34 
[3] {A} => (B) 0.48 0.8000000 1.176471 24 
[4] (B) => (A) 0.48 0.7058824 1.176471 24 


3.5.2 豆浆、 烧饼 与 饭团 


Q 数据 

假设 有 50 位 顾客 ， 每 个 顾客 购买 豆浆 、 烧 饼 或 饭团 ， 记 为 1， 如 图 3-10 所 示 。 
计算 {豆浆 + 烧饼 } CHAR) 和 {饭团 } CHAR) 的 关联 规则 ， 如 图 3-11 所 示 。 
a= 买 (豆浆 + 烧饼 + 饭团 ) 的 人 数 ; 

b= 买 ( 豆 浆 + 烧 饼 ) ， 不 买 饭团 的 人 数 ; 

c= 不 买 (豆浆 + 烧饼 ) ， 而 买 饭团 的 人 数 ; 

d= 不 买 ( 豆 浆 + 烧饼 ) ， 而 且 不 买 饭团 的 人 数 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


A B c D E F G H I J K 
1 TID A 豆浆 BR CRA AB A*B*C 
2| 1 1 1 1 1 1 列 联 表 C 非 C 
3 | 2 1 1 0 1 0 A+B 7 i7 24 
4| 3 1 0 1 0 0 3E (A+B) 19 7 26 
5 | 4 0 1 1 0 0 26 24 50 
6 | 5 0 0 1 0 0 
7 .| 6 1 0 0 0 0 支持 度 S(B—CO — 0.14 
8| 7 0 1 0 0 0 置信 度 C(A+B—C) 0.291667 
9| 8 1 1 1 1 1 提升 度 L(A*B—C) 0.560897 
50 | 49 1 1 0 1 0 
51 | 50 0 0 0 0 0 
52 | 30 34 26 24 7 


图 3-10 豆浆、 烧饼 和 饭团 的 数据 


图 3-11 豆浆、 烧饼 与 饭团 的 计算 


四 计算 

支持 度 〈 豆 浆 + 烧 饼 一 饭团 ) = a/(atbt+e+d)= 7150= 0.14 

置信 度 〈 豆 浆 + 烧 饼 一 饭团 ) = a/(atb)= 7/24 = 0.29 

提升 度 〈 豆 浆 + 烧 饼 一 饭团 ) = a(atb+ctd)/(atb)(atc)= 7X 50 /(24 X 26)- 0.56 

Sc HEBEBU RUBUS EPH 0.2.0 

提升 度 小 于 1，〔 豆 浆 + 烧 饼 ) 对 (饭团) 是 负面 信息 ， 负 的 关联 。 

X 期望 值 : z’ (4.B)=1248, 7<1248. 

因为 ，( 烧 饼 ) 和 (饭团) 互 为 替代 品 ， 两 者 较 少 同时 存在 ， 买 烧饼 的 人 不 会 再 买 饭 
团 ， 除 非 他 食量 很 大 。 


itemFrequency {arules} 
数据 框 格式 data. frame: 50 个 观察 值 3 个 变量 


P 
= 
* 
» 
> 
= 
+ 
> 


wow wv wv wv w 


if(!require (arules)) (install.packages ("arules") } 


(ABC=as .matrix (ABC) ) 


rule=apriori (ABC, parameter=list (supp-0.1,conf-0.2,maxlen-5), 


+ R 例 3.2 

library (arules) 

ABC = read.csv("C:/R/ABC.csv",header-T) 

head(ABC) ; class (ABC) 

control-list (verbose-F)) 

inspect (rule) # 图 3-12 

lhs rhs 

[1] {} => {C} 
[2] {} => {A} 
[3] {} => (B) 
[4] tC) => {A} 
[5] {A} => (C) 
[6] tC) => (B) 
[7] {B} => (C) 
[8] {A} => (B) 
[9] {B} => (A) 
[10] {A,C} => (B) 
[11] {B,C} => {A} 
[12] {A,B} => (C) 


support confidence lift 

0.52 0.5200000 1.0000000 
0.60 0.6000000 1.0000000 
0.68 0.6800000 1.0000000 
0.24 0.4615385 0.7692308 
0.24 0.4000000 0.7692308 
0.24 0.4615385 0.6787330 
0.24 0.3529412 0.6787330 
0.48 0.8000000 1.1764706 
0.48 0.7058824 1.1764706 
0.14 0.5833333 0.8578431 
0.14 0.5833333 0.9722222 
0.14 0.2916667 0.5608974 

图 3-12 ”关联 规则 


itemFrequency (items (rule),type -"relative") 


itemFrequency (items (rule),type -"absolute") 


rule.sortcof-sort (rule,by-"confidence") 
# 关联 规则 依照 confidence 大 小 排列 
rule.sortlift-sort (rule,by-"lift") 


inspect (rule.sortcof) 


inspect (rule.sortlift) 


# 图 3-13 


count 
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/大 语 数 据 科 学 
二 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


lhs rhs support confidence lift count 
[1] {A} -» (B) 0.48 0.8000000 1.1764706 24 
[2] {B} => {A} 0.48 0.7058824 1.1764706 24 
[3] t) => (C) 0.52 0.5200000 1.0000000 26 
[4] O => {A} 0.60 0.6000000 1.0000000 30 
[5] t? -» (B) 0.68 0.6800000 1.0000000 34 
[6] {B,C} => (A) 0.14 0.5833333 0.9722222 7 
[7] {A,C} => (B) 0.14 0.5833333 0.8578431 7 
[8] (C) => {A} 0.24 0.4615385 0.7692308 12 
[9] {A} => {C} 0.24 0.4000000 0.7692308 12 
[10] (C) => (B) 0.24 0.4615385 0.6787330 12 
[11] (B) => (C) 0.24 0.3529412 0.6787330 12 
[12] {A,B} => (C) 0.14 0.2916667 0.5608974 7 


图 3-13 ”关联 规则 依照 提升 度 lift 大 小 排列 


3.5.3 ”评估 与 应 用 


尿布 和 啤酒 的 评估 和 应 用 ， 有 下 列 建议 。 

CD 将 尿布 和 啤酒 摆 在 出 口 结账 的 地 方 ， 方 便 顾 客 节省 时 间 。 

(2) 换 一 个 角度 ， 买 尿布 的 人 会 再 买 啤酒 ， 将 尿布 和 啤酒 摆 在 距离 较 远 的 地 方 ， 让 顾 
客 多 和 逛 多 买 东西 。 

G) 选择 一 些 品牌 的 尿布 和 啤酒 包 里 在 一 起 卖 ， 使 获 利 增加 。 

(4) 超级 市 场 可 以 将 上 述 方案 (2) G) 在 两 家 分 店 分 别 实施 ， 试 验 哪个 方案 对 营 
业 额 有 显著 增加 。 

(5) 关联 规则 应 用 在 文本 挖掘、 产业 新 闻 的 关联 分 析 : 双 11 与 阿里 巴巴 。 

(6) 书店 的 关联 分 析 : 买 《 大 话 数据 科学 》 的 人 会 买 《大 话 统计 学 》。 

CD 推荐 系统 : 协同 过 滤 法 ， 找 出 那些 有 相同 喜好 的 人 ， 推 荐 给 他 们 相关 的 产品 。 

(8) 选择 不 同 的 支持 度 、 置 信 度 和 提升 度 的 阔 值 ， 使 算法 的 计算 和 复杂 度 降低 。 


Ill 


R 语 言 实战 


3.6.1 泰坦 尼克 号 


统计 学 的 分 类 数据 分 析 是 ， 检 验 两 个 因子 是 否 独立 ， 或 相关 性 是 否 显著 。 以 泰坦 尼克 
号 为 例 ， 在 统计 学 中 是 检验 乘客 身份 (因子) MEC (ATF) 是 否 无 关 或 显著 相关 。 在 关 
联 规则 分 析 中 是 挖掘 “头等 和 能” 和“ 存活” 是否 有 关联 ， 参 见 《 大 话 统计 学 》 例 题 14.4。 


29s 


如 果 将 “存活 ”变量 当 作 因 变量 (目标 变量 ) ， 问 题 就 是 监督 式 学 习 的 分 类 模型 。 
关于 泰坦 尼克 号 的 数据 如 表 3-3、 图 3-14、 图 3-15 所 示 。 这 个 数据 和 《大 话 统计 学 》 第 
14 章 的 数据 略 有 不 同 ， 因 为 参考 数据 来 源 不 同 。 


X33 ”泰坦 尼克 号 的 数据 


Ist 2nd 
Chld Adut  Chld Adut 
2 


Male 


Sex 


Female 


图 3-14 了 R 语 言 mosaicplot 图 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 Ri 语言 ) 


=, = = [4] [2] 
5 5 = 小 组 k 
K K 男 -— Xm 女 头 女 女 
0.08 0.16 0.21 0.25 0.3 率 0.34 0.45 0.71 0.87 0.97 
LE a? EE EE ER 
0.14 0.17 0.24 0.27 0.32 0.41 0.5 0.73 0.88 1 
= = 组 = 总 = 小 x = 头 小 
男 B 5 F 女 三 小 
[5] [6] 小 5 [3] n] 
iS [pepe] 是 图 3-16 的 规则 
图 3-15 ”泰坦 尼克 号 的 存活 率 
lhs rhs support confidence lift count 
[1] {Class=2nd,Age=Child} => {Survived=Yes} 0.010904134 1.0000000 3.095640 24 
[2] {Class=1st,Sex=Female} => (Survived-Yes) 0.064061790 0.9724138 3.010243 141 
[3] {Class=2nd,Sex=Female} => {Survived=Yes} 0.042253521 0.8773585 2.715986 93 
[4] (Class-Crew,Sex-Female) => (Survived-Yes) 0.009086779 0.8695652 2.691861 20 
[5] (Class-2nd,Sex-Male) => (Survived-No) 0.069968196 0.8603352 1.270871 154 
[6] (Class-3rd,Sex-Male) => (Survived-No) 0.191731031 0.8274510 1.222295 422 
Graph for 6 rules 
size: support (0.009 - 0.192) 
color: lift (1.222 - 3.096) 
Class-3rd 
O 
DN Age-Child 
[6] p Suvived=No > 
Class=2nd 
Sex=Male > > > © [1] 
"e X | 
[5] BO, 
Survived-Yes 2 
Class-Crew i, V" v 1 
uj» à w 
Sex=Female Y Class-1st 


图 3-16 关联 规则 的 网 络 图 


【 R 例 3.3 】 泰 坦 尼克 号 : 数据 Titanic、Titan， 函 数 { 包 }: 


apriori, itemFrequency. eclat 


图 3-3 关 联 分 析 数 据 有 5 种 格式 ，R 例 3.1 和 R 例 3.2 是 (a) 0-1 二 元 关联 矩阵。 
泰坦 尼克 号 数据 档案 是 (d) 事务 频数 表 Titanic， 转 成 〈c) 因子 项 目 数据 框 Titan 。 


第 个 章 


+ R 例 3.3 
# Titanic 四 个 变量 Class (1st, 2nd, 3rd, Crew),Sex(Male, Female), 
+ Age (Adult, Child) , Survived (Yes,No) 


+ 变量 有 4x2x2x2 = 32 NAB 

if (!require (arules) ) {install.packages("arules")}; library (arules) 
if (! require (arulesViz) ) {install.packages ("arulesViz") } 
library("arulesViz") ; library (graphics) 

data (Titanic) # 内 建 数据 事务 频数 表 table 格式 ， 如 图 3-3 (d) 
str(Titanic) ; Titanic 

mosaicplot(Titanic, main = "Survival on the Titanic") 4 请 见 图 3-15 
apply(Titanic, c(1, 4), sum) # Class 和 survived 的 人 数 
apply(Titanic, c(3, 4), sum) # Age 和 Survived 的 人 数 
df-as.data.frame (Titanic) # 32x 5 将 内 建 数据 转 成 数据 框 格式 
Titan-NULL 

for (i in 1:4) Titan-cbind (Titan, rep (as.character (df[,i]),df$Freq)) 
Titan=as.data. frame (Titan) + 转换 成 2201 x 4 数据 框 ， 如 图 3-3 (C) 

names (Titan)=names (df) [1:4] 

summary(Titan) ; head(Titan) 

x «- eclat(Titan, parameter-list(minlen-1, maxlen-3, sup-0.2, 
target-"frequent itemsets")) # Eclat AR 频繁 项 集 

inspect (x) 

rule-apriori (Titan) + 以 默认 值 进行 初步 探勘 

inspect (rule) 

#refine and pruning rules 

rule-apriori (Titan,parameter-list (minlen-2,supp-0.005,conf-0.8), 
appearance-list (rhs-c ("Survived=No", "Survived-Yes"),default-"lhs")) 
# 后 项 参数 为 Survived 

rulesort-sort(rule,by-"lift") ; inspect (rulesort) 
subset.matrix-is.subset (rulesort, rulesort) 

redundant-colSums (subset.matrix) > 1 ; which (redundant) 
rulepruned=rulesort[!redundant] ; inspect (rulepruned) 

library (arulesViz) # 关联 规则 可 视 化 

plot (rulepruned) # Heat map ( 热 图 ) 
plot(rulepruned,method-"grouped") #Balloon plot (气球 图 ) 

plot (rulepruned,method-"graph",control -list (type-"items")) 

# Graph (网 络 图 ， 如 图 3-16 所 示 ) 

plot(rulepruned, method = "paracoord", control = list 

(reorder = TRUE)) + (平行 坐标 图 ， 如 图 3-17 所 示 ) 


interestMeasure(rule, c("chiSquared", "cosine", "maxConfidence", 
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"jaccard", "kulczynski", "imbalance", "kappa"), transactions-Titan) 


关联 规则 如 图 3-18 所 示 。 


/大 话 数据 科学 
一 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Parallel coordinates plot for 6 rules 


Survived-Yes 
Survived-No 
ae 14 
Class=1st 
Sex=Female 
Age=Child 
Class=2nd nu 
Sex-Male 
Class-3rd 16] 
2 1 ths 
Position 
图 3-17 平行 坐标 图 
lhs rhs support confidence lift count 
n] 0 => (Age-Adult) 0.9504771 [1] 0.9504771 1.0000000 2092 
[2] (Class-2nd) => (Age-Adult) 0.1185825 [2] 0.9157895 0.9635051 261 
[3] {Class=ist} => (Age-Adult)  0.1449341 [3] 0.9815385 1.0326798 319 
[4] {Sex=Female} => (AgemAdult) 0.1930940 [4] 0.9042553 0.9513700 425 
[5] (Class-3rd) => {AgewAdult} 0.2848705 [5] 0.8881020 0.9343750 627 
[6] {Survived=Yes} => {AgewAdult} 0.2971377 [6] 0.9198312 0.9677574 654 
[7] {Class=Crew} => (Sex-Male) 0.3916402 [7] 0.9740113 1.2384742 862 
[8] {Class=Crew} => {AgesAdult} 0.4020900 [8] 1.0000000 1.0521033 885 
[9] {Survived=No} => (Sex-Male) 0.6197183 [9] 0.9154362 1.1639949 1364 
[10] {Survived=No} => {AgewAdult}  0.6533394 [10] 0.9651007 1.0153856 1438 
[11] (Sex-Male) => (Age-Adult) 0.7573830 [11] 0.9630272 1.0132040 1667 
[12] (Sex-Female,Survived-Yes) => (Age-Adult) 0.1435711 [12] 0.9186047 0.9664669 316 
[13] (Class-3rd, Sex-Male) => (Survived-No) 0.1917310 [13] 0.8274510 1.2222950 422 
[14] {Class=3rd, Survived=No} => {AgewAdult} 0.2162653 [14] 0.9015152 0.9484870 476 
[15] {Class=3rd, Sex=Male} => {AgewAdult} 0.2099046 [15] 0.9058824 0.9530818 462 
[16] {Sex=Male, Survived=Yes} => {AgewAdult} 0.1535666 [16] 0.9209809 0.9689670 338 
[17] {Class=Crew, Survived=No} => {Sex=Male} 0.3044071 [17] 0.9955423 1.2658514 670 
[18] {Class=Crew, Survived=No} => {Age=Adult} 0.3057701 [18] 1.0000000 1.0521033 673 
[19] (Class-Crew,Sex-Male) => (Age-Adult) 0.3916402 [19] 1.0000000 1.0521033 862 
[20] (Class-Crew,Age-Adult) => (Sex=Male} 0.3916402 [20] 0.9740113 1.2384742 862 
[21] {Sex=Male, Survived=No} => (Age-Adult) ^ 0.6038164 [21] 0.9743402 1.0251065 1329 
[22] {Age=Adult, Survived=No} => (Sex-Male) 0.6038164 [22] 0.9242003 1.1751385 1329 


[23] {Class=3rd, Sex=Male, Survived=No} => {AgeAdult} 0.1758292 [23] 0.9170616 0.9648435 387 
[24] (Class-3rd,Age-Adult,Survived-No) => {Sex=Male} 0.1758292 [24] 0.8130252 1.0337773 387 
[25] {Class=3rd, Sex=Male,Age=Adult} => {Survived=No} 0.1758292 [25] 0.8376623 1.2373791 387 
[26] (Class-Crew,Sex-Male,Survived-No) => {Age=Adult} 0.3044071 [26] 1.0000000 1.0521033 670 
[27] {Class=Crew,Age=Adult, Survived=No} => {Sex=Male} 0.3044071 [27] 0.9955423 1.2658514 670 


图 3-18 27 个 关联 规则 


3.6.2 ”商店 数据 


商店 数据 文件 是 图 3-3 Ce) 事务 表格 式 格式 


Mob MOV VoM VM VV Ve Ve NV te OM BR te VoM MVM VY oV OM OM 


#08 


A B Cc 
|order id product id 

837080 Unsweetened Almond 
837080 Fat Free Milk 
837080 Turkey | 
837080 Caramel Corn Rice 
837080 Guacamole Singles 


图 3-19 事务 表格 式 


* R 例 3.4 

library(arules) ; library (dplyr) 

library(ggplot2) ; library (igraph) 

library (arulesViz) 

shop = read.csv("C:/R/shop.csv") 

str (shop) 

# 事务 表格 式 格式 转换 为 事务 数据 库 格式 

shop %>% group by('order id') %>% summarize (order.count = 

n distinct(order id)) 

shop %>% group by('product id') %>% summarize (product.count = 
n_distinct (product_id)) + trans <- read.transactions (file = 
data.path, format = "single", sep = ",", cols = c("order id", 
"product id"), rm.duplicates = FALSE,quote = "", 

skip = 0, encoding = "unknown") 

data. frame (head (sort (itemFrequency (trans, type = "absolute") , 
decreasing = TRUE), 10)) 

head (sort (itemFrequency(trans, type = "absolute") , decreasing = 
FALSE), 10) 

parameters = list( support = 0.01, minlen = 2, maxlen = 10, target 
= "frequent itemsets") 

freq.items <- apriori(trans, parameter = parameters) 

str (freq.items) 

itemFrequencyPlot (trans, topN = 25) # 25 个 频繁 项 集 ， 如 图 3-20 所 示 
freq.items <- apriori(trans, parameter = parameters) 
freq.items.df <- data.frame(item set = labels(freq.items) , 
support = freq.items@quality) 

head(freq.items.df) 

exclusion.items «- c('Banana','Bag of Organic Bananas') 
freq.items <- apriori(trans, parameter = parameters, appearance 
= list(none = exclusion.items, default = "both")) 


freq.items.df «- data.frame(item set = labels(freq.items) , 


/大 话 数据 科学 
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了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 
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图 3-20 项 目 频数 


support = freq.items@quality) 

head(freq.items.df,10) ; support «- 0.01 ; confidence «- 0.2 
columns «- c("order id", "product id") 

parameters = list(support = 0.01, confidence = 0.2, minlen = 2, 
maxlen - 10, target - "rules" ) 

rules «- apriori(trans, parameter - parameters) 

rules.df «- data.frame(rules = labels(rules), rules@quality) 
head(rules.df) ; tail(rules.df 

## 支持 关联 规则 的 事务 

as (supportingTransactions (rules, trans), "list") 

get.txn «- function(data.path, columns)( 

trans <- read.transactions(file = data.path, format = "single", 
sep = "," , cols = columns, rm.duplicates = FALSE, quote = "", 
skip = 0, encoding = "unknown") 

return(trans) } 

## 交叉 销售 

get.rules <- function(support, confidence, transactions)( 
parameters = list( support = support, confidence = confidence, 
minlen - 2, maxlen - 10, target - "rules" ) 

rules <- apriori(transactions, parameter = parameters) 
return(rules) } 

find.rules «- function(transactions, support, confidence, 

topN = 10){ all.rules <- get.rules(support, confidence, 
transactions) rules.df «-data.frame(rules = labels (all.rules) 


all.rules@quality) 


other.im «- interestMeasure(all.rules, transactions = transactions) 


P 


rules.df <- cbind(rules.df, other.im[,c('conviction','leverage')]) 
best.rules.df <- head(rules.df[order(-rules.df$leverage),],topN) 
return(best.rules.df) } 

plot.graph «- function (cross.sell.rules)( 

edges «- unlist(lapply(cross.sell.rules['rules'], strsplit, 
split-'-»')) + g <- graph (edges = edges) + plot(g) } 
cross.sell.rules «- find.rules( trans, support, confidence ) 


cross.sell.rules$rules «- as.character(cross.sell.rules$rules) 


wy a i i Y 


plot.graph(cross.sell.rules) ; cross.sell.rules 


交叉 销售 关联 规则 如 图 3-21 所 示 。 
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图 3-21 交叉 销售 关联 规则 
+E 负 关 联 规则 


> 
> get.neg.rules <- function(transactions, itemList, support, 

+ confidence) ( 

+ neg.transactions <- addComplement( transactions, labels = itemList) 
* rules «- get.rules(support, confidence, neg.transactions) 

+ return(rules) ) 

» itemList «- c("Organic Whole Milk","Cucumber Kirby") 

» neg.rules «- get.neg.rules(trans,itemList, support - .05, 

+ confidence = .6) 

» neg.rules.nr «- neg.rules[!is.redundant (neg.rules)] 

» 
» 


labels (neg.rules.nr) 


+ 规则 画图 
负 关 联 规则 如 图 3-22 所 示 。 


/状语 数 据 科学 


In LHS Group 
[Organic Gate, Coffee Fit] 


ew 


了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


[1] "{Strawberries} => {!Organic Whole Milk)" 

[2] "{Strawberries} => {!Cucumber Kirby)" 

[3] "(Organic Whole Milk} => {!Cucumber Kirby)" 

[4] "(Organic Zucchini} => {!Cucumber Kirby)" 

[5] "(Organic Yellow Onion} => {!Organic Whole Milk)" 
[6] "(Organic Yellow Onion} => {!Cucumber Kirby)" 

[7] "(Organic Garlic) => {!Organic Whole Milk)" 

[8] "(Organic Garlic) => {!Cucumber Kirby)" 

[9] "(Organic Raspberries} => {!Organic Whole Milk)" 
[10] "(Organic Raspberries} => {!Cucumber Kirby)" 


Fd3-22 ” 负 关联 规则 
all.rules <- get.rules(support, confidence, trans) 


plotly arules(all.rules, method = "scatterplot", measure = 


c("support","lift"), shading - "order") 


"lift", interactive - FALSE) 
sub.rules «- head(sort(all.rules, by-"lift"), 15) 


plot(sub.rules, method-"grouped") 
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plot(sub.rules, method-"graph", measure - "lift") 


关联 规则 如 图 3-23 所 示 。 


plot(all.rules, method = NULL, measure = "support", shading = 


‘Scatter plot for 65 rules 
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图 3-23 ”关联 规则 


Groceries 数 据 arules 的 transactions 格 式 : 9835 行 (记录 ) 。 
数据 是 图 3-3 (CO 事务 数据 库 的 格式 。 


> 4 R 例 3.5 


ES 
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if (!require (arules) ) {install.packages("arules")} ; library (arules) 
if (!require (arulesViz)) {install.packages ("arulesViz") } 
library(arulesViz) ; library(arules) 

itemFrequencyPlot (Groceries, topN = 10,type = "absolute") 

15) 


rules <- apriori(Groceries, parameter = list(supp = 0.001, 


itemFrequencyPlot (Groceries, topN 


conf = 0.9, maxlen = 4)) 
rules ; options(digits = 3) 
"lift", decreasing = TRUE) 


rules <- sort(rules, by 
inspect (rules[1:5]) 


rules <- sort(rules, by = "confidence", decreasing = TRUE) 


inspect (rules[1:5]) 

subset.matrix = is.subset(rules, rules) 

subset .matrix[lower.tri(subset.matrix, diag=TRUE)] = NA 
redundant = colSums(subset.matrix, na.rm=TRUE) >= 1 
rules.pruned = rules[!redundant] ; rules.pruned 

e = eclat (Groceries, parameter=list (support=0.05) ) 

e = sort(e, by-"support", decreasing-TRUE) ; inspect (e) 
tab «- crossTable(Groceries) ; tab[1:3, 1:3] 
tab["bottled beer", "bottled beer"] 

tab["bottled beer", "canned beer"] 

beer.rules «- apriori(data - Groceries, 

parameter = list(support = 0.0015, confidence = 0.3), 
appearance = list(default = "lhs", rhs = "bottled beer")) 
beer.rules 

beer.rules «- sort(beer.rules, decreasing - TRUE, by - "lift") 
inspect (beer.rules) 

tab["bottled beer", "red/blush wine"] 

tab["red/blush wine", "red/blush wine"] ; 48/189 
tab["white wine", "white wine" 

tab["bottled beer", "white wine"] ; 22/187 
Plot(beer.rules, method = "graph", measure = "lift", 
shading="confidence") 

#444 数据 groceries = Groceries 

groceries «- read.transactions("C:/R/groceries.csv", sep = ",") 
summary (groceries) ; inspect (groceries[1:5] 
itemFrequency (groceries[, 1:3] 
itemFrequencyPlot(groceries, support - 0.1) 
itemFrequencyPlot(groceries, topN - 20) 

image (groceries[1:5]) 

image (sample (groceries, 100)) 

apriori (groceries) 


groceryrules <- apriori(groceries, parameter = list (support = 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


0.006, confidence = 0.25, minlen = 2)) 
groceryrules ; summary (groceryrules) 
inspect (groceryrules[1:3]) 
inspect (sort (groceryrules, by = "lift")[1:5]) 


berryrules «- subset(groceryrules, items $in$ "berries") 
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inspect (berryrules) ; str(groceryrules df) 


3.6.4 人 口 收入 数据 


ER 语言 包 arules 的 内 建 数据 集 有 Adult 和 AdultUCI 两 个 有 关 个 人 收入 的 数据 集 ， 共 
有 48842 个 记录 。AdultUCI 数据 有 15 个 变量 ， 虽 然 是 数据 框 的 格式 ， 但 是 不 能 将 AdultUCI 
数据 输入 apriori 函数 计算 关联 规则 ， 因 为 变量 有 数值 型 变量 。 

AdultUCI 的 15 个 变量 : 

(1) 年 龄 Age 数 值 整数 变量 。 

(2) 工作 等 级 Workclass 因 子 有 8 个 水 平 。 

(3) 教育 Education 有 序 因子 有 16 个 水 平 。 

(4) 教育 年 数 education-num 数 值 向 量 。 

(5) 婚姻 marital-status 因 子 有 7 个 水 平 。 

(6) 职业 Occupation 因 子 有 14 个 水 平 。 

(7) 家 庭 关 系 Relationship 因子 有 6 个 水 平 。 
(8) 种 族 Race 因 子 有 5 个 水 平 。 

(9) 性 别 Sex 因 子 有 2 个 水 平 。 

(10) 资本 获 利 capital-gain 数 值 向 量 。 

(11) 资本 损失 capital-loss 数 值 向 量 。 

(12) Fnlwgt 数 值 向 量 。 

(13) 每 周 工时 hours-per-week 数 值 整数 变量 。 
(14) 出 生 国 家 native-country 因 子 有 41 个 水 平 。 
(15) 收入 Income 有 序 因 子 有 2 个 水 平 (小 small «large K) 。 

将 AdultUCI 数据 的 第 4 和 第 12 个 变量 删除 。 

将 OD. 年 龄 Age 改 为 有 序 因子 有 4 个 水 平 。 

将 (10) 资本 获 利 capital-gain 改 为 有 序 因子 有 3 个 水 平 。 

将 (11) 资本 损失 capital-loss 改 为 有 序 因 子 有 3 个 水 平 。 

¥ (13) 每 周 工时 hours-per-week 改 为 有 序 因 子 有 4 个 水 平 。 

上 述 的 因子 全 部 加 起 来 13 个 变量 共有 115 个 因子 。 

数据 Adult 是 图 3-3 (b) 事务 数据 库 的 格式 transactions. 

数据 AdultUCI 是 图 3-3 Cc) 数据 框 的 格式 data frame 48842 obs. 13 variables. 
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> 4 R 例 3.6 

> library(arules) ; data(Adult) ; data(AdultUCI) ; dim(Adult) 
» dim(AdultUCI) ; Adult[1:2, ; AdultUCI[1:2, ; str (Adult) 
> str(AdultUCI) ; head (Adult) 

> ++ 删除 属性 变量 

> AdultUCI[["fnlwgt"]] <- NULL 

> AdultUCI[["education-num"]] «- NULL 

» AdultUCI "age"]] <- ordered (cut (AdultUCI[[ "age"]], 


4 


€(15,25,45, 65,100) ) , 
labels - c("Young", "Middle-aged", "Senior", "Old")) 
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AdultUCI "hours-per-week"]] <- ordered (cut (AdultUCI[[ 

* "hours-per-week"]], c(0,25,40,60,168)), 

+ labels = c("Part-time", "Full-time", "Over-time", "Workaholic")) 
» AdultUCI "capital-gain"]] <- ordered (cut (AdultUCI[[ 

* "capital-gain"]], c(-Inf,0,median(AdultUCI[[ "capital-gain"]] 

+ [AdultUCI[[ "capital-gain"]]>0]), Inf)), labels = 

* c("None", "Low", "High")) 

» AdultUCI "capital-loss"]] <- ordered (cut (AdultUCI[[ 

+ "capital-1oss"]], c(-Inf,0, median(AdultUCI[[ "capital-loss"]] 
[AdultUCI[[ "capital-loss"]]>0]), Inf)), labels = 

c("None", "Low", "High") ) 

## create transactions 

(Adultl <- as(AdultUCI, "transactions") ) 

str(Adultl) ; Adult <- data(Adult) ; str(Adult) ; summary (AdultUCI) 
Adult2 «- AdultUCI[, -c(1,3,5,11,12,13)] 

Adu = as(Adult2, "transactions") ; head(Adu) ; dim(Adu) 


rules <- apriori (Adu, parameter-list (supp-0.5,conf-0.9)) 


m 


rulel-sort(rules,by - "confidence") 
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inspect (rulel) 


3.6.5 ”总 尾 花 数 据 


SERGE Cris data set) 包含 了 150 个 样本 ,分 别 是 山 蓄 尾 、 变 色 萝 尾 和 维 吉 尼 亚 药 
尾 。 用 4 个 特征 变量 测量 花 人 条 : FHKE, SHAR WKE ERRE. 

(1) 3EH-KJE (Sepal Length) : 计算 单位 是 厘米 。 

(2) BHAR (Sepal Width) : 计算 单位 是 厘米 。 

(3) WKE (Petal Length) : 计算 单位 是 厘米 。 

(4) 花 斩 宽度 (Petal Width) : 计算 单位 是 厘米 。 

(5) ÆJ] (Class) : 可 分 为 Setosa、Versicolor 和 Virginica 三 个 品种 。 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


> # R 例 3.7 

> if(!require(arules)) {install.packages ("arules")} ; library (arules) 
> if(!require(tidyverse)) {install.packages ("tidyverse")} 

> library (tidyverse) ; data(iris) 

> z iris %>% dplyr::select(-Species) %>% gather(Variable, Value) %>% 
" 


ggplot(aes(x-Value, fill-Variable)) + geom density (alpha-0.5) 
geom vline(aes(xintercept-0)) + theme bw() 
Scale fill brewer(palette-"Spectral") 


irisDisc «- discretizeDF(iris) ; head(irisDisc) 


v VvV + + 


trans5 <- as(irisDisc, "transactions") ; trans5 


高 尾 花 数据 特征 变量 分 布 图 如 图 3-24 所 示 。 
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图 3-24 ”高 尾 花 数据 特征 变量 分 布 图 (下 图 是 去 除 填充 颜色 ) 


» colnames (trans5) 


[1] "Sepal.Length-[4.3,5.4)" "Sepal.Length-[5.4,6.3)" "Sepal.Length-[6.3,7.9] 
[4] "Sepal.Width-[2,2.9)" "Sepal.Width-[2.9,3.2)" "Sepal.Width-[3.2,4.4]" 
[7] "Petal.Length-[1,2.63)" "Petal.Length-[2.63,4.9)" "Petal.Length-[4.9,6.9] 
[10] "Petal.Width-[0.1,0.867)" "Petal.Width-[0.867,1.6)" "Petal.Width-[1.6,2.5]" 
[13] "Species-setosa" "Species-versicolor" "Species-virginica" 

» inspect (head (trans5)) 

» rules «- apriori(trans5, parameter-list (supp-0.1,conf-0.5)) 

» rules «- apriori(trans5, parameter-list (supp-0.3,conf-0.6)) 

» rules ; options(digits - 2) 

» inspect (rules[1:16]) 


lhs rhs support confidence lift count 
[1] {Petal.Width=[0.867,1.6)} => {Species=versicolor} 0.30 0.94 2.8 45 
[2] {Species=versicolor} => (Petal.Width*-[0.867,1.6)) 0.30 0.90 2.8 45 
[3] {Petal.Length=[2.63,4.9)} => {Species=versicolor} 0.31 0.94 2.8 46 
[4] {Species=versicolor} => (Petal.Length-[2.63,4.9)) 0.31 0.92 2.8 46 
[5] {Petal.Length=[1,2.63)} => (Petal.Width-[0.1,0.867)) 0.33 1.00 3.0 S0 
[6] {Petal.Width=[0.1,0.867)} => (Petal.Length-[1,2.63)) 0.33 1.00 3.0 S0 
[7] {Petal.Length=[1,2.63)} => (Species-setosa) 0.33 1.00 3.0 50 
[8] {Species=setosa} => (Petal.Length-[1,2.63)) 0.33 1.00 3.0 50 
[9] (Petal.Width-[0.1,0.867)) => (Species-setosa) 0.33 1.00 3.0 50 
[10] (Species-setosa) => (Petal.Width-[0.1,0.867)) 0.33 1.00 3.0 50 
[11] (Species-virginica) => (Petal.Length-[4.9,6.9]) 0.31 0.94 2.8 47 
[12] (Petal.Length-[4.9,6.9]) => (Species-virginica) 0.31 0.92 2.8 47 
[13] (Species-virginica) => (Petal.Width-[1.6,2.5]) 0.31 0.94 2.7 47 
[14] (Petal.Width-[1.6,2.5]) => (Species-virginica) 0.31 0.90 2.7 47 
[15] (Petal.Length-[4.9,6.9]) => (Petal.Width-[1.6,2.5]) 0.31 0.90 2.6 46 
[16] (Petal.Width-[1.6,2.5]) => (Petal.Length-[4.9,6.9]) 0.31 0.88 2.6 46 


» data(iris) 
> caret::featurePlot(x = iris[, c("Sepal.Length", "Sepal.Width", 
+ "Petal.Length", "Petal.Width")], y = iris$Species, 


* plot = "density", scales = list(x = list(relation = "free"), 
* y = list(relation = "free")), adjust = 1.5, pch = "|", 
* layout = c(2, 2), auto.key = list(columns = 3) 


高 尾 花 数据 特征 变量 分 布 如 图 3-25 所 示 。 
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图 3-25 ” 昔 尾 花 数据 特征 变量 分 布 图 
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其 他 测度 值 ML J, Cosine 


arules::apriori 
arulesViz::arules Viz 


豆浆 、 烧 饼 或 饭团 ABC 数据 : R 例 3.2 
泰坦 尼克 号 Titanic 数 据 : R 例 3.3 


商店 Shop 数 据 : R 例 3.4 
食品 杂货 Groceries 数 据 : R 例 3.5 


人 口 收入 Adult 数 据 : R 例 3.6 1 a} 81 
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高 尾 花 iris 数 据 : R 例 3.7 hs 
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/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Qo 聚 类 分 析 介绍 | 


聚 类 分 析 〈Cluster Analysis) 是 要 把 数据 的 记录 〈 样 本 ) 根据 相似 度 ， 把 相似 的 记录 聚 
合 在 一 起 ， 称 为 “类 ” 或 “和 能” (cluster) 。 在 营销 管理 的 市 场 划分 ， 就 是 聚 类 分 析 。 聚 
类 分 析 没 有 目标 变量 ， 所 以 是 非 监督 式 学 习 。 

聚 类 分 析 概 念 图 如 图 4-1 所 示 。 


0-1 
定 序 
数值 2 
样本 一 > EB FURR ”样本 Xi 
相似 度 六 非 层次 聚 类 RXR 评价 


图 4-1 聚 类 分 析 概 念 图 


RAYA: 层次 聚 类 (hierarchical) 和 非 层次 聚 类 (non-hierarchical) o 

@ 层次 聚 类 

假设 有 X 个 记录 ， 计 算 1 类 ，2 类 ，…N 类 的 划分 。 

(1) 聚合 法 (agglomerative) : 从 N 类 一 N-1 类 一 … 一 1 类 的 合并 。 

及 语言 包 “cluster” 的 函数 agnes CAGglomerative NESting) 是 聚合 法 层次 聚 类 。 

本 章 主要 介绍 聚合 法 层次 聚 类 R 语言 基础 包 “stats” 的 函数 hclust。 

(2) RJE (divisive) : 从 1 类 一 2 类 一 … 一 N 类 的 划分 。 

及 语言 包 “cluster” 的 函数 diana (DIvisive ANAlysis clustering) 是 划分 法 层次 聚 类 。 

层次 聚 类 ， 给 出 一 个 树 形 图 (dendrogram) ， 最 上 层 是 树 根 ， 是 所 有 记录 样本 合并 成 
一 类 ， 最 下 层 是 树叶 ， 所 有 记录 样本 各 成 一 类 ， 聚 合法 是 由 下 往 上 ， 从 树叶 变 成 树 根 ， 最 
后 将 所 有 记录 并 成 一 类 。 聚 合法 是 用 样本 的 “距离 ”来 合并 树枝 。 

第 10 章 的 决策 树 也 是 树 形 图 ， 算 是 划分 法 ， 由 上 往 下 ， 用 变量 的 “信息 ”来 划分 树 
枝 ， 从 树 根 变 成 树叶 。 决 策 树 是 监督 式 学 习 ， 用 来 判别 样本 是 属于 哪 一 类 。 

@ 非 层 次 聚 类 

选 定 一 个 k 值 ， 计 算 RRA. 

(1) 大 均值 法 CEmean) : 只 适用 于 数值 变量 ， 不 适用 于 分 类 变量 。 

(2) 基于 质心 聚 类 法 (PAM) : 适用 于 数值 变量 和 分 类 变量 。 

G) 期 望 最 大 值 聚 类 法 CEM) 。 


#02 BS 


(4) 基于 密度 的 聚 类 法 (DBSCAN) 。 
(5) 模糊 C 均 值 法 (Fuzzy C-means) o 


[42] 距离 与 相似 度 衡 量 


相似 度 〈similarity) 是 衡量 两 个 样本 的 相似 程度 。 相 似 度 越 高 ， 聚 类 结果 越 好 。 

BERS (distance) 、 相 异 度 或 不 相似 度 (dissimilarity) 是 相似 度 的 相反 。 距 离 越 大 ， 相 
似 度 越 低 。 距 离 越 近 ， 相 似 度 越 高 。 

在 计算 机 程序 ， 多 数 以 距离 计算 聚 类 分 析 的 不 相似 度 。 

定义 q(x;y) 为 两 个 样本 x，y 的 距离 ， 有 下 列 性 质 : 

(1) 非 负 性 Cnon-negative) d(x.y)& 0. 

(2) 同时 公理 Cidentity) d(x,y)- 0 当 且 仅 当 x=y。 

G) 对 称 性 (symmetry) d(xy)=d(y,x). 

(4) 三 角 不 等 式 (triangular inequality) d(x,y) S d(x,z)+ d(z.y). 


VY 


4.2.1 数值 数据 距离 


x, y AAMAS, x, y, tex, y 样本 的 变量 i 的 数据 值 ，i= 1, t p, p 个 变量 。 
数值 数据 距离 的 测量 公式 有 : 
A) 欧 氏 Euclidean 距离 ,度量 : 


d(x.»)- AX») 


(2) 闵可夫 斯 基 Minkowski 距 离 工 ,度量 : 


d(x.») - Ao, -»[ 


4(s5)- xz, 2 


“hl + |i) 


(3) 堪培拉 Canberra 距 离 : 


(4) 查 甘 诺 斯 基 Czekanonowski 距 离 : 
d(x.») -1-| 2277, min(s -») || Y, -»)] 
(5) 曼哈顿 Manhattan 距 离 工 ,度量 : 


qd (xp)= 3l -| 
(6) 极 大 坐标 Maximum 距 离 或 切 比 雪夫 Chebyshev 距 离 工 .度量 ; 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


d(x.y) max, ,,..,|x, - v.] 


(7) 夹 角 余弦 Cosine: 
Xx) 
(xx) xx) 
夹 角 余 弦 是 相似 度 测度 ， 夹 角 余 弦 越 大 ， 相 似 度 越 高 。 


d(x.y)- 


4.2.2 标准 化 与 归 一 化 


因为 变量 i，i= 1，2，…, p 的 度量 尺度 不 同 ， 数 值 大 的 变量 会 影响 距离 的 度量 ， 所 以 
在 计算 距离 前 ， 要 将 变量 标准 化 或 归 一 化 。 

标准 化 Cstandardization) 是 将 数据 规范 到 (-3, +3) 之 间 : 

x-(x-x)/o 
归 一 化 或 规范 化 (normalization) 是 将 数据 规范 到 CO, +1) 之 间 : 
x’ =(x—min(x)) /(max(x)—min(x)) 

HEED dE iris 数据 (3.6.5 节 ) 标准 化 : 

标准 化 并 不 能 改变 数据 的 分 布 ， 不 是 变 成 正 态 分 布 。 

R 语言 函数 scale() 和 standardize() 可 以 标准 化 。 


【R 例 4.1 】 标准 化 ， 数据 iris， 函 数 standardize 


+ R 例 4.1 
install.packages ("tidyverse") 


library (tidyverse) 


vvvy 


z_iris <- iris %>% psycho::standardize() ; head(z_iris) 


4.2.3 0-1 数据 距离 和 相似 度 


两 个 样本 x，y 的 数据 如 表 4-1 所 示 。 


表 4-1 样本 数据 
E 王国 所 
0 0 
ESSE 20.051031 E 


@ 0-1 数 据 的 距离 
(1) 欧 氏 Euclidean 距离 ，p 是 变量 的 数目 : 


d(x.y) - JFZ (x,—y,) =V2=1.414214 


(2) 堪培拉 Canberra 距 离 : 
p x$ 


d(x.y)- PAS suit TET Xs=24 
dix-0,. y=0, 则 在 三 中 不 列 入 计算 ， k 是 Cx=0，y=0) 的 数目 
G) 曼哈顿 Manhattan 距 离 : 
q(x,y)= Y -»,|-2 
(4) 极 大 坐标 Maximum 距 离 : 
d(x,y)= max an -y|-1 


6 0-1 数 据 的 相似 度 
0-1 数 据 的 配对 系数 如 表 4-2、 表 4-3 所 示 。 
表 4-2 ”配对 系数 


a<{x=1, y= 1} 的 数目 ，b <-{x=1，y=0} 的 数目 ; c <-{x=0，y=1} 的 数目 ; d< fr = 
0, y=0} 的 数目 。 
有 下 列 八 个 相似 度 系 数 : 
(1) Jaccard’ s 相似 度 系数 Similarity Coefficient) = a /(a + b +c)= 3/5. 
距离 函数 : d(x,y)=1-a/(a+b+c)=1-3/5=2/5=04. 
R 语 言 的 距离 函数 > dist (data, method = "binary") 就 是 用 上 述 公 式 。 
(2) Kendall Coefficient =(a + d)/ p = 4/6. 
(3) Russel-Rao Coefficient = a / p = 3/6. 
(4) Dice-Sorensen Coefficient = 2a /(2a + b + c)- 6/8. 
(5) a/[a+2(b +0)] - 3/7. 
(6) a (b c) 32. 
(7) (a*dy [a*d42(b*c)] = 4/8. 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


(8) 2(a*d) [X(a*d)* b+c] = 8/10. 


4.2.4 混合 数据 的 距离 


混合 数据 是 数据 变量 有 连续 变量 、0-1 变 量 、 定 类 变量 、 定 序 变量 的 混合 。 


Gower 相似 度 衡量 : 
"es LES 
Xn". 
i, JAWIA EAS, k WARE. 
(D 若 变 量 k 是 连续 变量 或 定 序 变量 : 
| = x,| 


Sia = 


Fix, xS MARA, Ww, =1; 
Tix, XA AWAKE, Mw, -0. 
(2) 若 变量 i 是 0-1 变 量 : 

Hix, =1 x,=1, 则 sx — 1, Wa =1s 
Fix, =1 x,-0, Ws, =0 w=1; 
Fix, =0, x,-1, Ws, -0 w=1; 
Tix, = 05 X,=05 则 sx — 0, Wy 0. 
G) FFE k 是 定 类 变量 : 

Fix, =X, Ws, =1 wy =; 

Fix, x Ws, =0 wy =1; 


Tix, =x, AARRE, 则 Wa 70.5 


E max(x,) -min(x,) 


4.2.5 ”顾客 数据 的 距离 


假定 有 5 个 顾客 ，7 个 变量 ， 数 据 如 表 4-4 所 示 。 
表 4-4 ”顾客 数据 


x 
身高 


Xl, XE, Xa, XEFE, X3, KERR, XIE 0-1 变 量 。 
Gower 相似 度 计算 : 
s(1, 2)- [1-(178-165)/25+1-(76-68)/20+0+1-(92-80)/16+1+1-(2-1)/2+0]/6 = 0.555 
s(1, 3)- [1-(165-158)251-(72-68)/20--1--1-(80-80)/16:0--1-(2-2)/20]/6 = 0.753 
s(2, 3)- [1-(178-158)/25+1-(76-72)/20+0+1-(92-80)/16+0+1-(2-1)/2+1]/6 = 0.458 
s(1, 4)- [1-(169-165)/25-1-(68-58)/20*0-1-(96-80)/16-1--1-(3-2)/2*0]/5 = 0.568 
s(2, 4)- [1-(178-169)/25+1-(76-58)/20+1+1-(96-92)/16+1+1-(3-1)/2+0]/6 = 0.535 
s(3, 4)- [1-(169-158)/25+1-(72-58)/20+0+1-(96-80)/16+0+1-(3-2)/2+0/6 = 0.227 
s(1, 5)=[1-(183-165)/25+1-(78-68)/20+0+1-(94-80)/16+0+1-(2-1)/2+0]/6 = 0.234 
s(2, 5)= [1-(183-178)/25+1-(78-76)/20+ 1+1-(94-92)/16+0+1-(1-1)/2+1]/6 = 0.929 
s(3, 5)= [1-(183-158)/25+1-(78-72)/20+0+1-(94-80)/16+0+1-(2-1)/2+1]/6 = 0.421 
s(4, 5)- [1-(183-169)/25+1-(78-58)/20+1+1-(96-94)/16+0+1-(3-1)/2+0]/6 = 0.386 
相似 度 与 距离 如 表 4-5 所 示 。 

表 4-5 ”相似 度 与 距离 


0.753 | 0458 | 1 0247 | 0542 | 1 


0.568 | 0.535 | 0.227 | 0432 | 0465 | 0.773 | 


【 R 例 4.2 】 计算 距 离 : 数据 P1.csv， 函 数 daisy 


> 4 R 例 4.2 
> library (cluster) 
> (pa = read.csv ("C:/R/P1.csv",header=T)) 


> pa 

X1 X2 X3 X4 X5 X6 X7 
1 165 68 0 1980 1 2 0 
2 178 76 11992 1 1 1 
3 158 72 0 1980 2 2 1 
4 169 58 1 1996 1 3 0 
5 183 78 1 1994 3 1 1 


> pa$X3 <- as.factor (pa$X3) 
> pa$X5 <- as.factor (pa$X5) 


/大 话 数据 科学 
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> pa$X7 <- as.factor (pa$X7) 
» disMatrix «- daisy(pa, metric-"gower") 
» disMatrix «- round(disMatrix, digits-3) 


» disMatrix 


» disMatrix 
Dissimilarities : 


0 

0 

0.451 0.501 0.806 

0.799 0.204 0.668 0.669 


Metric : mixed ; Types = I, I, N, I, N, I, N 
Number of objects : 5 


4.2.6 ”距离 和 相似 度 的 转换 


聚 类 分 析 的 两 个 记录 样本 ) 的 相似 度 是 求 最 大 ， 但 是 距离 是 求 最 小 ， 所 以 距离 和 相 
似 度 要 经 过 转换 。 

dli, D- 距离 ，s (i, 让 = 相似 度 

dli, )-1—sG, DskaG, P=p—sG, D, p 是 变量 的 数目 

d, ))=max{ s(i, DAEs (G, D) —sG, j) 

4(i.j) - 2(1-5(..)) 


s(i,j) -V (1ed(i, j)) 


4.2.7 ”计算 距离 的 RR 函数 


介绍 三 个 R 语 言 计算 距离 的 函数 如 表 4-6 所 示 。 


表 4-6 ”计算 距离 的 R 函 数 
应 用 
knn, hclust 


【 R 例 4.3 】 x HEBES. 数据 P.csv， 函 数 dist、distance 
daisy K ŽE pam 函 数 时 说 明 ，dist 函数 定义 如 下 : 


#08 


dist (x, method = "euclidean", "maximum", "manhattan", "canberra", "binary" 


or "minkowski") 


> # R 例 4.3 

> pp = read.csv("C:/R/P.csv",header-T) 

> pp ; class (pp) 

> dist(pp, method-"binary") 

X1 X2 X3 X4 X5 X6 

1000111 1 2 3 4 
a X. 13 Uu X8 2 0.83 
3.01011 0 3 0.50 0.60 
4001011 4 0.50 0.60 0.80 
5111000 5 1.00 0.25 0.80 0.80 


» dist(pp, method-"euclidean") 


1 2 3 
2 0.83 

3 0.50 0.60 

4 0.50 0.60 0.80 

5 1.00 0.25 0.80 0.80 


» dist(pp, method-"canberra") 


1 2 3 4 
2 5.0 
3 3.0 3.6 
4 3.0 3.6 4.8 
5 6.0 1.5 4.8 4.8 


> library (philentropy) 


Vv 


x <- distance(pp, method = "jaccard") 
> x <- round(x, digits=3) 


>x 

vi v2 v3 v4 v5 
v1 0.000 0.833 0.5 0.5 1.00 
v2 0.833 0.000 0.6 0.6 0.25 
v3 0.500 0.600 0.0 0.8 0.80 
v4 0.500 0.600 0.8 0.0 0.80 
v5 1.000 0.250 0.8 0.8 0.00 


> # combine three probabilty vectors to a probabilty matrix 


/大 语 数 据 科学 
了 大 数据 与 机 医学 习 实 战 (基于 R 语 言 ) 


v 


ProbMatrix <- rbind(1:10/sum(1:10), 20:29/sum(20:29), 
30:39/sum(30:39)) 


+ 


> distance(ProbMatrix, method = "euclidean") 


Metric: 'euclidean' using unit: 'log'. 
vi v2 v3 

v1 0.00 0.128 0.139 

v2 0.13 0.000 0.011 

v3 0.14 0.011 0.000 


» dist(ProbMatrix, method - "euclidean") 
1 2 
2 0.128 


3 0.139 0.011 


distance 函数 R 语言 程序 : 

> # R 例 4.4 

> install.packages ("philentropy") 
» library (philentropy) 

> x «- rbind(1:10, 20:29, 30:39) 

» distance(x, method - "euclidean") 


Metric: 'euclidean' using unit: 'log'. 
vl v2 v3 

vi 0 60 92 

v2 60 0 32 

v39232 0 


> getDistMethods() # 其 他 距离 方法 dist methods 


层次 聚 类 分 析 


4.3.1 两 类 连接 


层次 聚 类 的 聚合 法 是 : 每 次 要 将 两 个 小 类 合并 成 一 类 ， 所 以 小 类 的 个 数 要 减少 一 个 。 
假定 有 小 类 U, V, 两 小 类 合并 连接 ， 计 算 连 接 的 方法 有 : 
@ 单 连接 ( single linkage ) 
2 的 记录 和 7 的 记录 ， 距 离 最 小 或 相似 度 最 大 : 
dy, - min(d(i.j)|i eU. j eV} 
@ 全 连接 ( complete linkage ) 
UD 的 记录 和 Vy 的 记录 ， 距 离 最 大 或 相似 度 最 小 : 


dr - max(d (i. j)ieU.j eV] 
© 均 连 接 ( average linkage ) 
Z 的 记录 和 7 的 记录 ， 所 有 距离 的 均值 : 


zd s 
dis Di d(i.j) 
是 U 的 记录 和 TV 的 记录 所 有 连接 的 数目 。 


@ 中 心 连接 ( centroid linkage ) 
U 记 录 的 中 心 点 x 和 V 记 录 的 中 心 点 志 的 距离 : 
dy, = lr. -5f 

G 华 德 连接 (Ward linkage ) 

d > 
华 德 连接 法 又 称 最 小 方差 法 (Minimum variance method) 。 
如 果 S，T 两 个 小 类 连接 或 聚合 S，T 
ward.D 和 ward.D2 连接 的 层次 聚 类 适合 每 类 的 记录 数目 差不多 相等 。 
层次 聚 类 最 后 画 出 树 形 图 或 谱系 图 (dendrogram) 如 图 4-2 所 示 。 


QU. 7 3 X 
th bor dd 5; 
N f ^ e 
人 2 4. 
(a) 单 连 接 
Uu M 
(oret 
GD 中 心 "T [OE 华 德 连接 
图 4-2 ”五 类 连接 
层次 聚 类 的 及 语言 如 下 。 
> hclust(d, method = "complete") 
# method = "ward.D", "ward.D2", "single", "complete", "average", "median" 
"centroid" 


4.3.2 ”顾客 数据 的 聚 类 


假定 有 5 个 顾客 ，7 个 变量 ， 数 据 如 表 4-7 所 示 。 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


表 4-7 顾客 数据 (2) 


将 上 述 数据 转换 为 0-1 变 量 。 

FEX, X2, X3, X4, X5, XGftikoMo-l2efi 

若 身高 宇 170， 姑 =1; 若 身 高 <170，X1=0; 

车 体重 宇 70， 了 =1; 若 体 重 <70，X2=0; 

车 性 别 = 男 ，X3=1; 若 性 别 = 女 ，X3=0; 

若 出 生 <1990，X4=1; 若 出 生 宇 1990，X4=0; 

车 民族 = 汉 ，X5=1; FRKA, X5=0; 

若 学 历 宇 大 学 ，X6=1; 若 学 历 < 大 学 ，X6=0。 

新 的 数据 框 如 表 4-8 所 示 ， 右 边 是 存储 到 Excel， 档 名 Ch4-1.csv， 如 图 4-3 所 示 。 
表 4-8 ”数据 框 


Al|B|clDlEl|F|6 
1 |x1| x2 X3 | xa | x5 | X6 | x7 
2]106|0l]o[1]|1[|11[0]| 
3/1{1]1[o0[1{[0[1 | 
4|o0|1l0[1/|0|1[1| 
slololaloj|1[1lo]!| 
6]1|]1|1]ol[oj[o]|1] 

图 4-3 ”数据 框 


Q 计算 相似 度 
Jaccard"s 相 似 度 系 数 =a(a+p+c)。 
距离 函数 qd(1.2)=1-1/(1+2+4)=6/7。 


Height 


aal | az |! ? 
1 


距离 最 小 是 (2，5) ， 所 以 Q, 5) 合并 为 一 小 类 。 
用 单 连接 法 (method ="single") 。 


1 Q5 3 4 
(14) (23,5) 4 
1 


于 是 (1，4) 合并 ， 然 后 (1，3，4) ， 树 形 图 如 图 4-4。 
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helust (*, "singee") hehust ("single") 
图 4-4 ”层次 聚 类 分 析 树 形 图 
R 语言 的 程序 如 下 。 


[ R 例 4.5 】 层 次 机 数据 Ch4-5.csv， 函 数 hclust 


> 4 R 例 4.5 
> p = read.csv("C:/R/Ch4-5.csv",header=T) 
> class(p) 7 p 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


> d <-dist(p, method-"binary") 

> d <- round(d,digits=3) 

» c «- hclust(d, method-"single") 
> plot (c) 

» plot(c, hang--1) 


X1 X2 X3 X4 X5 X6 X7 
000111 


(o oNI 
ppop 
ooro 
oror 
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"ommo 


11 
0 1 
0 0 
11 


4.3.3 ”层次 聚 类 的 优点 和 缺点 


Q 层次 聚 类 的 优点 

CD 不 需要 定义 聚 类 的 数目 。 

(2) 树 形 图 是 很 容易 了 解 和 解释 的 。 

QD 多 变量 分 析 有 把 变量 聚合 为 因子 分 析 ， 而 希望 给 集合 变量 的 因子 有 一 个 名 字 ， 层 
次 聚 类 可 以 在 某 个 层次 的 聚 类 ， 给 出 一 个 分 类 标志 的 命名 ， 这 是 市 场 细 分 。 例 如 ，【R 例 
4.8】 欧 洲 语言 聚 类 的 罗曼 语系 ， 第 1 章 大 数据 江湖 门派 的 聚 类 学 派 。 

(4) 在 市 场 细 分 中 ， 因 为 层次 聚 类 有 个 层次 的 F， 选 择 不 同 的 k， 决 定 可 以 处 理 的 市 场 
的 大 小 。 

@ 层次 聚 类 的 缺点 

CD 层次 聚 类 要 计算 距离 矩阵 ， 当 观察 样本 数 n 相当 大 时 ， 计 算 时 间 和 成 本 大 。 

(2) 层次 的 算法 是 单行 道 ， 当 一 个 观察 样本 聚 类 错误 ， 就 不 能 再 更 改 。 

G) 层次 聚 类 可 能 低 度 稳定 ， 增 加 或 减少 一 些 样本 ， 可 能 有 大 不 同 的 解答 。 

(4) 不 同 的 连接 会 有 不 同 的 聚 类 ， 单 连接 和 全 连接 的 聚 类 较 稳健 ， 均 连接 可 能 会 有 完 
全 不 同 的 聚 类 。 

(5) 层次 聚 类 对 于 异常 样本 会 很 敏感 。 


QD sexes | 


4.4.1 K-mean 聚 类 


天 均值 法 Ck-mean) RÆ. 


COD 选择 聚 类 的 数目 k 数据 标准 化 ， 随 机 选择 大 个 记录 当 聚 类 的 中 心 点 。 
QD 每 个 记录 (样本 ) 计算 和 每 个 中 心 点 的 距离 ， 指 派 该 记录 属于 距离 最 近 的 中 心 点 。 
(3) 重新 计算 每 个 聚 类 的 中 心 点 。 
(4) 重复 第 O) 步 ， 直 到 每 个 记录 都 不 再 移动 。 
假定 有 5 个 顾客 ，2 个 变量 ，k= 2， 数 据 如 表 4-9、 表 4-10 所 示 。 
表 4-9 ”顾客 数据 ( 3) 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


[ R 例 4.6 ] 厂 均值 法 (&-mean) RÆ. 数据 P3.csv， 函 数 kmeans 


> # R 例 4.6 
> pa = read.csv("C:/R/P3.csv",header=T) xi x2 
> pa 4 两 个 变量 数据 > pa [1,] -0.56 -0.30 
> ps <- scale (pa) Xi X2 [2,) 0.74 0.71 
- . 1 165 68 [3,] -1.26 0.20 
> ps + 标准 化 数据 2 178 76 [4,] -0.16 -1.56 
> km <- kmeans (ps, 2) 3 158 72 [5,] 1.24 0.96 
4 169 S8 attr(,"scaled:center") 
> km 5 183 78 xi X2 
K-means clustering with 2 clusters of sizes 2, 3 171 70 
attr(,"scaled:scale") 
Cluster means: xi x2 
x1 x2 10.0 7.9 


1 0.99 0.83 
2 -0.66 -0.56 


Clustering vector: 
[1121221 


Within cluster sum of squares by cluster: 


[1] 0.16 2.27 
(between SS / total SS = 69.6 %) 


记录 1 是 第 2 类 ， 记 录 2 是 第 1 类 ， 记 录 3 是 第 2 类 ，…， 记 录 5 是 第 1 类 。 


4.4.2 PAM 聚 类 


基于 质心 聚 类 法 (Partitioning Around Medoids, PAM) 和 太 - 均 值 法 聚 类 相同 要 选择 聚 
类 的 数目 。PAM 的 输入 数据 是 矩阵 或 数据 框 ， 可 以 是 混合 数值 和 因子 变量 ， 即 利用 Gower 
距离 。 
PAM 算法 有 两 个 阶段 。 
O 创建 阶段 
A) 选择 个 记录 作为 中 心 。 
(2) 每 个 记录 聚 类 到 最 近 的 中 心 。 
O 交换 阶段 
(1) 每 个 类 如 果 有 记录 的 平均 距离 最 小 ， 该 记录 交换 为 新 的 中 心 点 。 


第 4.3.2 节 数据 的 PAM 的 R 语 言 如 下 : 


> # R 例 4.7 

> library (cluster) 

> pl = read.csv("C:/R/P1.csv",header=T) 
> class(pl) ; pl 


> paml «- pam(pl, k=3) 

> paml 
Medoids: 

ID X1 X2 X3 X4 X5 X6 X7 

[1,1] 1 165 68 0 1980 1 2 0 
[2,] 2 178 76 11992 1 1 1 
[3,] 416958 11996 1 3 0 
Clustering vector: 
(11123213532 

library (cluster) 

library (vegan) 

dis = vegdist(exp matrix) 

res = pam(dis,3) # choice of clustering algorithm 

pl = read.csv("C:/R/P1.csv", header=T) 

class(pl) ; pl 

paml <- pam(pl, k-3) 


YM V oV M OM MOM 


sil = silhouette (paml$clustering, pl) # cluster vector 


> plot(sil,col-meta$Colors) 


4.4.3 K-mean 聚 类 的 优点 和 缺点 


@ K-mean 聚 类 的 优点 

COD 算法 简单 容易 了 解 。 

(2) 有 高 度 弹性 ， 如 果 已 经 做 好 聚 类 ， 新 的 实例 样本 加 入 ， 很 容易 计算 。 监 督 式 学 习 
分 类 近邻 法 CANN) ， 新 的 实例 样本 加 入 ， 要 重新 全 部 再 计算 。 

(3) 在 许多 实战 应 用 上 ， 效 果 相 当 好 。 

@ k-mean 聚 类 的 缺点 

CD 对 于 一 些 先端 的 聚 类 方法 ，K-mean 并 非 是 很 精致 的 方法 。 

(2) 因为 有 用 到 随机 的 选择 (起 始点 ) ， 所 以 不 保证 是 最 优 解 。 

(3) 需要 选择 猜测 聚 类 的 数目 k。 

(4) 对 于 非 球形 数据 的 类 ， 或 分 散 密度 的 类 ， 聚 类 不 会 很 理想 。 


QD session | 


聚 类 分 析 和 第 3 章 关联 规则 分 析 都 是 非 监 督 式 学 习 ， 没 有 因 变量 来 评价 测试 数据 的 结 
果 ， 聚 类 分 析 用 剪影 图 或 轮廓 图 来 看 聚 类 的 效果 ， 剪 影 图 适用 在 Kmean 和 Pam 聚 类 。 


Z 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


如 果 数 据 有 分 类 变量 ， 例 如 竟 尾 花 数 据 或 红酒 数据 ， 可 以 用 表格 table 比较 实际 分 类 和 
聚 类 的 结果 。 


聚 类 的 剪影 图 


剪影 图 或 轮廓 图 Csilhouette plot) 如 图 4-5 所 示 。 


n=178 


fish (13) 


insect (8) 


mammai (41) 


0.0 02 04 06 
Silhouette width si m T 
Average silhouette width : 0.38 $ — d» 0s 08 


图 4-5 ” 聚 类 的 剪影 图 


定义 样本 的 轮廓 信息 (silhouette information) s(D) 如 下 : 
d(i,O) 是 样本 i 和 一 个 聚 类 C 中 每 个 样本 的 平均 距离 : 
d(i,C) = Avg(d(i,j)|j€C) 
a(i) 是 样本 i 在 一 个 聚 类 C 中 和 同类 其 他 样本 的 平均 距离 : 
a(i)=d(i,C) ieC 
5(i) 是 样本 i 和 非 同类 C 中 最 小 距离 ， 即 样本 最近 聚 类 的 距离 : 
b(i) - min, d(i,C)ie C 


ag- PO ca) 
9) max {a(i).b(i)} 

EC if a(i) « b(i).Blls(i) > 0 
s(i)-10 if a(i)- b(i).Bls(i) =0 


B0). ig a(i)» b(i).Bls(i) <0 


SH) BK, DERE: 
如 果 0.71 三 s (2) 三 1.0， 则 有 很 强 的 聚 类 的 结构 ; 
如 果 0.51 三 s (7) 三 0.70， 则 有 合理 的 聚 类 的 结构 ; 
如 果 0.26 三 s (i) 三 0.50， 则 有 较 弱 的 聚 类 的 结构 ; 
如 果 0 三 s (i) 三 0.25， 则 有 很 差 的 聚 类 的 结构 。 


R 


sO, ARB: s0) VF 0, 


语言 实战 


4.6.1 欧洲 语言 的 聚 类 


十 五 个 欧洲 语言 : 


错误 分 类 。 


英语 English (En) 、 挪 威 语 Norwegian (No) 、 丹 麦 语 Danish 


(Da) 、 荷 兰 语 Dutch (Du) 、 德 语 German (Ge) 、 法 语 French (Fr) 、 西 班 牙 语 Spanish 


(Sp) 、 意 大 利 语 


Italian (IO 、 波 兰 语 Polish CPD 、 匈 牙 利 语 Hungarian (Hu) 、 芬 兰 


语 Finnish (Fi) 、 希 腊 语 Greek (Gr) 、 拉 丁 语 Latin (La) 、 葡 萄 牙 语 Portuguese (Pt) 、 
捷克 语 Czech (Cz) ， 括 号 是 数据 代号 。 从 1 到 10 的 文字 ， 进 行 聚 类 分 析 如 表 4-11 一 表 4-13 


所 示 。 


1 English (En) 


2 Norwegian 
(No) 


表 4-11 ”十 五 个 欧洲 国家 1 到 10 的 文字 


me ree | Foe [oe [sem [ Bae | Na 


is lu: 


Vier Vijf 
Vier 
Neuf 
Nueve Diez 
8 Italian (It) Uno|Due| Tre | Quattro | Cinque | Sei Sette Otto Nove Dieci 
9 Polish (P1) Jeden| Dwa | Trzy | Cztery | Piec |Szesc| Siedem Osiem |Dziewiec| Dziesiec 
10 Hungarian ; á 
(Hu) Egy |Ketto|Harom| Negy Ot Hat Het Nyolc Kilenc Tiz 
11 Finnish (Fi) | Yksi Kaksi|Kolme| Nelja Viisi |Kuusi|Seitseman|Kahdeksan| Yhdeksan| Kymmenen 
12 Greek (Gr) Ena | Duo | Tria | Tessera | Pente | Exi Epta Oktw Ennia Deka 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 Ri 语言 ) 


eo 


oe|2|jolojoj|o|a3|mj|nm 


【 R 例 4.8 ] 欧洲 语言 : 数据 Euro.csv， 函 数 hclust 


数据 框 格 式 data.frame: 15 个 观察 值 ”15 个 变量 


# R 例 4.8 

LAN «- read.csv("C:/R/Euro.csv",header-T) 
str (LAN) 

LAN # 数据 框 的 格式 

LD <- as.dist (LAN) ; str (LD) 

LD + 转换 为 距离 的 格式 

LCluster = hclust (LD,method="average") 
plot(LCluster, hang--1) ; plot(LCluster) 


所 谓 的 “拉丁 语系 ” 指 的 应 该 是 “罗曼 语系 ”。 包 括 了 意大利 语 、 西 班 牙 语 、 葡 萄 牙 


V V V VV VN OM 


语 、 法 语 、 罗 马 尼 亚 语 以 及 瑞士 的 罗曼 语 。 


Height 


树 形 图 如 图 4-6 所 示 。 
Cluster Dendrogram Cluster Dendrogram 
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图 4-6 ”欧洲 语言 的 聚 类 树 形 图 


/ 估 话 数据 科学 


大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


4.6.2 美国 电力 公司 数据 


美国 电力 公司 数据 有 22 家 电力 公司 〈 实 例 ) ，8 个 变量 ， 如 表 4-14 所 示 。 
表 4-14 ”美国 电力 公司 数据 


150 


148 
204 
174 


ik: XI = 营 收 income/debt， 了 如 = 投资 报酬 率 (RoR) , X3 = 每 千瓦 成 本 cost per kilowatt, 
XA = 年 负载 系数 annual load factor, X5 = 尖峰 需求 增长 peak demand growth, 
X 6= 销售 sales， X7 = 核能 百分比 percent nuclear, X8 = 总 燃料 成 total fuel costs 


: 数据 Ut.csv， 函 数 hclust {cluster} 


数据 框 格式 data.frame: 22 个 观察 值 ”8 个 变量 


> 
> 
> 
> 
2 
2 
> 


# R 例 4.9 

library (cluster) 

UT = read.csv("C:/R/Ut.csv",header-T) 
options (digits = 3) 

UT 

UTD <- dist (UT) 

UTD 


UrCluüster = 
UTCluster 


HCK5 


HCK7 


VV VN ON ON ON 


table (HCK5) 


HCKS 
1 2 
7 10 
UTClusterl 
UTCluster2 
UTCluster3 


UTCluster4 
UTCluster5 


RM I ON RO ONE UNE 


hclust (UTD, method="average") 


3 
1 


plot (UTCluster5, 


plot (UTCluster) 


4 5 
2 2 


cutree(UTCluster, k-5) ; HCK5 
cutree(UTCluster, k=7) ; HCK7 
rect.hclust (UTCluster,k-5,border-"red") 


(UTR «- as.data.frame(scale(UT))) # 标准 化 


hclust (dist (UTR) ,method="single") 
hclust (dist (UTR) ,method="ward.D") 
hclust (dist (UTR) ,method="centroid") 
hclust (dist (UTR) , method-"complete") 
hclust (dist (UTR) , method-"average") 


树 形 图 如 图 4-7 所 示 。 


3.0 40 
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hang--1) 
rect.hclust (UTCluster5,k-6,border-"red") 
HCK6 - cutree(UTCluster, k-6) ; HCK6 

row.names (UTR) <- paste (HCK6, 


col=rev (paste ("gray", 1:99,sep-""))) 


":",row.names (UT) ,sep="") 
heatmap(as.matrix(UTR), Colv=NA, hclustfun=hclust, 


bero ToN 
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图 4-7 美国 电力 公司 聚 类 树 形 图 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


图 4-8 是 陈 诺 夫 Chernof 脸 图 ， 不 是 R 语 言 的 图 形 ， 参 考 Johnson 2012. 
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图 4-8 Bkit X Chernofll A 


4.6.3 ”欧州 人 蛋白 质数 据 


欧州 人 和 蛋白质 数据 有 25 个 国家 样本 ，10 个 变量 如 表 4-15 所 示 。 
表 4-15 ”欧洲 人 蛋白 质数 据 变量 


数据 框 格式 data.frame: 25 个 观察 值 ”10 个 变量 


> 4 R 例 4.10 


> install.packages ("cluster"); library (cluster) 
> EUP <- read.csv("C:/R/protein.csv") ; head (EUP) 
> EUPScaled = as.data.frame (scale (EUP[,-1])) 


#08 


> EUPScaled$Country =EUP$Country 
> he = hclust (dist (EUPScaled, method="euclidean"), method="ward.D2") 
> hc; plot(hc, hang = -0.01, cex = 0.7) 
> hc2 = hclust (dist (EUPScaled), method-"single" 
> plot (hc2, hang = -0.01, cex = 0.7) 
树 形 图 如 图 4-9 所 示 。 
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图 4-9 欧洲 人 蛋白 质数 据 聚 类 树 形 图 


dv = diana(EUPScaled, metric = "euclidean") 
plot(dv); fit = cutree(hc, k 4); table (fit) 
plot(hc); rect.hclust(hc, k 4, border="red") 
# k-means Rž 


if (!require(devtools)) install.packages ("devtools") 


install. packages (c("factoextra","fpc", "cluster", "NbClust") ) 
library(factoextra); library("cluster") 

devtools: :install_github ("kassambara/factoextra") 

EUP <- read.csv("protein.csv"); rownames (EUP)=EUP$Country 
EUP$Country=NULL; EUPScaled = as.data.frame (scale (EUP)) 
set.seed(100); kmFit = kmeans(EUPScaled, 4); kmFit 
aggregate (EUPScaled, by-list(cluster-kmFit$cluster), mean) 
fviz cluster(kmFit, data = EUPScaled) 

fviz nbclust (EUPScaled, kmeans, method = "wss") 

geom vline(xintercept - 4, linetype - 2) 

pamFit «- pam(EUPScaled, 4); pamFit$medoids 

fviz cluster(pamFit); claraFit «- clara(EUPScaled, 4, samples-5) 
claraFit$medoids ; fviz cluster(claraFit) 


if (!require (factoextra) ) {install.packages ("factoextra") } 
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library (factoextra) 


/大 语 数 据 科 学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


if (!require (cluster) ) {install.packages ("cluster")} ; library (cluster) 

if(!require(fpc))tinstall.packages("fpc")) ; library (fpc) 

if (!require (NbClust) ) {install.packages ("NbClust")} ; library (NbClust) 

EUP <- read.csv("C:/R/protein.csv") 

rownames (EUP) =EUP$Country; EUP$Country=NULL 

EUPScaled = as.data.frame (scale (EUP) ) 

nb <- NbClust (EUPScaled, distance = "euclidean", min.nc = 2, 
max.nc = 9, method = "ward.D2", index ="all") 

fviz_nbclust (nb) + theme minimal(); km.res = kmeans(EUPScaled, 3) 

sil.km <- silhouette (km.res$cluster, dist (EUPScaled) ) 

# silhouette analysis 

si.sum <- summary(sil.km); > si.sum$clus.avg.widths 

si.sum$avg.width; si.sum$clus.sizes; fviz silhouette (sil.km) 

pam.res «- pam(EUPScaled, 3) 

dd «- dist(EUPScaled, method -"euclidean") 

pam stats «- cluster.stats (dd, pam.res$cluster) 

pam stats$within.cluster.ss 

pam stats$clus.avg.silwidths 

pam stats$dunn 

pam stats$dunn2 

res.stat «- cluster.stats(dd, km.res$cluster, pam.res$cluster) 

res.stat$corrected.rand 

res.stat$vi 

par(mfrow - c(1,1)) 


pam.res$medoids 
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plot (pam.res, which.plots=2, main="") 


如 图 4-10 一 图 4-13 所 示 。 
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图 4-10 ”欧洲 人 和 蛋白 质数 据 聚 类 树 形 图 


Clusters silhouette plot 
Average silhouette width: 0.24 
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图 4-11 ”剪影 图 
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图 4-12 ”PAM 中 心 图 


/状语 数据 科学 


了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 
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Average silhouette width : 0.34 
图 4-13 ”剪影 图 


4.6.4 ”红酒 数据 
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IbClus 


数据 框 格式 data.frame: 178 个 观察 值 ”14 个 变量 


+ R 例 4.11 

install.packages("cluster") ; install.packages ("dendextend" 
install.packages("ggthemes") ; install.packages ("HDclassif") 
install.packages("NbClust") ; install.packages ("tidyverse") 
library(HDclassif) ; library (magrittr) 

library(cluster) # conduct cluster analysis 

# library(compareGroups) # build descriptive statistic tables 
# library(HDclassif) # contains the dataset 

# library(NbClust) # cluster validity measures 

# library(sparcl) # colored dendrogram 

options (scipen=999) 

wine = read.csv("C:/R/wine.csv", header=T) 

data(wine) ; str(wine) 

colnames (wine) <- c("Class", "Alcohol", "MalicAcid", "Ash","Alk_ash", 
"magnesium", "T phenols", "Flavanoids", "Non flav", "Proantho", 


"C Intensity","Hue","OD280 315","Proline") 


#08 


hc ward «- hclust(euc dist, method = "ward.D2") 
dend ward «- as.dendrogram(hc ward) 


dend2 <- dendextend::color branches (dend ward, k = 3) 


> wine df «- as.data.frame(scale(wine[, -1])) 

» table (wine$Class) 

» numComplete «- NbClust::NbClust(wine df, distance - "euclidean", 
+ min.nc = 2, max.nc = 6, method = "complete", index = "all" ) 
> euc dist «- dist(wine df, method = "euclidean") 

» hc complete «- hclust (euc dist, method = "complete") 

» dend complete «- as.dendrogram(hc complete) 

» dendl «- dendextend::color branches (dend complete, k = 3) 

> plot (dendl, main = "Complete-Linkage") 

> complete_clusters <- cutree(hc_complete, 3) 

> table (complete clusters) 

> table(complete clusters, wine$Class) 

* numWard «- NbClust::NbClust(wine df, distance - "euclidean", 
+ min.nc = 2, max.nc = 6, method = "ward.D2", index = "all" ) 
> 

> 

> 

> 


plot (dend2, main = "Ward Method") 


树 形 图 如 图 4-14 所 示 。 
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图 4-14 ”红酒 数据 聚 类 树 形 图 


ward clusters «- cutree(hc ward, 3) 

table(ward clusters, wine$Class) 

table(complete clusters, ward clusters) 

ward df <= wine df %>% dplyr::mutate (cluster = ward clusters) 
ward df %>% dplyr::group by(cluster) %>% 


dplyr: :summarise all (dplyr::funs(mean)) -> ward results 


Wow bow V Ww Y 


ggplot2::ggplot(ward results, ggplot2::aes(cluster, Alcohol)) 


[iste 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


ggplot2::geom bar(stat = "identity") 
ggthemes::theme stata() 


numKMeans «- NbClust::NbClust(wine df, min.nc 
method = "kmeans") 

set.seed(100) 

km «- kmeans (wine df, 3, nstart = 25) 


table (km$cluster) 


2, max.nc — 15, 


2r 


par(mfrow = c(1, 2)) 

boxplot (wine$Alcohol ~ km$cluster, data = wine, 

main = "Alcohol Content, K-Means") 

boxplot (wine$Alcohol ~ ward clusters, data = wine, 

main = "Alcohol Content, Ward's") 

table(km$cluster, wine$Class) 

wine$Alcohol «- as.factor(ifelse(wine df$Alcohol > 0, 
"High", "Low")) 

gower dist «- cluster::daisy(wine[, -1], metric = "gower") 
set.seed(100) ; pam cluster «- cluster::pam(gower dist, k - 3) 
table(pam cluster$clustering) 

table(pam cluster$clustering, wine$Class) 

table(pam cluster$clustering, wine$Alcohol) 

par(mfrow = c(1,1)); pam cluster$medoids 

plot(pam cluster, which.plots-2, main-"") ; set.seed(2019) 
rf «- randomForest::randomForest(x - wine[, -1], ntree - 2000, 
proximity - T) 

rf ; dim(rf$proximity) ; rf$proximity[1:5, 1:5] 
randomForest: : importance (rf) 

rf_dist <- sqrt(1 - rf$proximity) 

rf dist[i:2, 1:2] 7 set.seed(190) 

pam rf «- cluster::pam(rf dist, k = 3) 


table(pam rf$clustering) 


V VV MN VV tV VV VV NV NN ot OMM TN FV VY VVV Ht t + + 


table(pam rf$clustering, wine$Class) 


4.6.5 汽车 数据 


本 例 取 自 1978 一 1979 年 汽车 数据 。 


【R 例 4. 
数据 框 格 式 data.frame 


38 个 观察 值 8 个 变量 


> # R 例 4.12 
> library (cluster) 
> cars = read.delim("C:/R/cars.tab",stringsAsFactors-FALSE) 


NOW ONES ONE OME NP ON CONES OUR URE ONE SIRES RS NR SU RBS ONE INR SRS TOO NEY CN] Se 


head(cars) ; cars.use cars[;-c(1;2)] 


medians apply(cars.use,2,median) ; mads = apply (cars.use,2,mad) 


cars.use 


Scale(cars.use, center-medians, scale-mads) 


cars.dist dist(cars.use) ; cars.hclust 


hclust (cars.dist) 
plot(cars.hclust,labels-cars$Car,main-'Default from hclust') 


groups.3 


cutree(cars.hclust,3) ; table(groups.3) 


counts 


sapply (2:6, function (ncl) table (cutree (cars.hclust,ncl))) 
2:6 ; 


names (counts) counts 

cars$Car[groups.3 == 1] 

sapply (unique (groups. 3) , function (g) cars$Car [groups .3==g] ) 

# four cluster solution 

groups.4 =cutree(cars.hclust, 4) 

sapply (unique (groups. 4) , function (g) cars$Car[groups.4 == g]) 

table (groups.3,cars$Country) 

aggregate (cars.use, list (groups.3) ,median) 

aggregate (cars[,-c(1,2)],list (groups.3) ,median) 

a3 =aggregate(cars[,-c(1,2)],list (groups.3) ,median) 

data. frame (Cluster=a3[,1],Freq=as.vector (table (groups.3)),a3[,-1] 
a4=aggregate(cars[,-c(1,2)],list (groups.4) ,median) 

data. frame (Cluster=a4[,1],Freq=as.vector (table (groups.4)),a4[,-1] 
cars.pam = pam(cars.dist,3) #PAM 
names (cars.pam) 

table (groups.3,cars.pam$clustering) 
cars$Car[groups.3!= cars.pam$clustering] 
cars$Car[cars.pam$id.med] 


plot (cars.pam) 


树 形 图 如 图 4-15 所 示 。 
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图 4-14 汽车 数据 聚 类 树 形 图 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


本 章 思维 导 图 


数值 数据 距离 ， 相 似 度 

标准 化 ， 归 一 化 iris 数据 : R 例 4.1 
0-1 数 据 距离 ， 相 似 度 
混合 数据 Gower 相似 度 
距离 和 相似 度 的 转换 
计算 距离 的 R 函数 : R 例 4.2, 4.3, 4.4 
单 连接 


距离 相似 度 


RAE: RS RIA 
— 层次 聚 类 聚 类 的 优点 和 缺点 
聚 类 分 析 | 


大 均值 法 k-mean 数 据 : R 例 4.6 
基于 质心 PAM 数 据 : R 例 4.7 
Kmean 聚 类 的 优点 和 缺点 
评价 轮廓 信息 剪影 图 

期 望 最 大 EM， 基 于 密度 DBSCAN 


ns 


非 层次 聚 类 


stats::helus 
stats::kmeans 
cluster::pam. 


NbClust::NbClust 


欧洲 语言 Euro 数据 : R 例 4.8 E... 
美国 电力 公司 Ut 数据 : R 例 4.9 m 


R 语 言 实战 | 欧洲 人 蛋白 质 protein 数据 : um e 
红酒 wine 数据 : R 例 4.11 Mii 


汽车 cars 数据 : R 例 4.12 EE 


i x e> — X 
Se. A 
一 ae se = , ar < 
a 19-— p oj 
» 5 R E » * 
x t] T . 三 Mw» 
1 N pes wot me k a O 
. N » » +e 4 ° 
, E hdi oo" e/ |» ^ 1 
5 N — ^s Pw ea 
. ^. *« * $19 
» id MIA 人 st 
e 从 r > n 
x 
dte 
yp . 
e ^ e 9*, .— S 
2 s 
$ 
v 9. o 
v. & 
+ 
o E 
> e 
è 
. 
* 
9 » * 
第 5 章 
EB : + ae, 
qee a 


我 们 面 对 有 意义 的 问题 ， 是 不 能 用 产生 这 个 问题 的 “相同 ”思考 水 平 


一 一 爱 因 斯 坦 Albert Einstein ( 1879—1955 ) 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


o 降 维 分 析 介绍 | 


大 数据 的 特点 是 样本 的 数量 大 ， 变 量 的 数目 多 。 维 度 (dimension) 就 是 样本 的 数量 和 
变量 的 数目 ， 和 矩阵 、 数 据 框 的 行 与 列 的 数目 ， 数 组 的 维度 不 只 是 行 与 列 ， 还 可 能 有 更 多 的 
维度 。 行 的 数目 是 记录 、 实 例 或 样本 点 的 数目 ， 聚 类 分 析 是 合并 样本 点 的 数目 ， 将 样本 数 
量 加 以 缩减 ， 用 层次 聚 类 做 成 树 形 图 。 列 的 数目 是 变量 、 属 性 、 特 征 、 维 的 数目 ， 降 维 分 
析 是 合并 变量 的 数目 ， 或 者 说 是 减少 变量 的 数目 。 

聚 类 分 析 是 样本 实例 的 相似 性 组 合 。 

降 维 分 析 的 主 成 分 分 析 是 变量 特征 的 线性 组 合 。 


维度 灾难 


降 维 分 析 (dimension reduction) 主要 是 降低 变量 的 维度 。 因 为 变量 数目 增加 ， 会 造成 
计算 的 复杂 性 ， 这 种 计算 的 复杂 性 增加 ， 不 只 是 多 项 式 的 增加 ， 还 是 指数 函数 的 增加 。 维 
度 灾难 (curse of dimensionality， 维 度 的 诅咒 ) 即 是 说 维度 变量 的 增加 ， 使 得 模型 的 计算 ， 
呈现 指数 函数 的 增加 。 

有 些 变量 是 重复 的 ， 因 为 和 其 他 变量 有 高 度 的 相关 性 ， 这 些 变 量 就 是 多 余 的， 只 是 增 
加 维度 灾难 。 

关于 样本 数量 大 ， 统 计 学 的 做 法 是 利用 抽样 ， 来 降低 样本 的 数量 ， 进 行 总 体 的 估计 或 
检验 ， 从 而 维持 相当 的 准确 度 或 误差 。 变 量 数 目 多 ， 统 计 学 的 做 法 是 利用 逐步 增加 变量 ， 
例如 前 进 法 的 逐步 回归 ， 找 到 自 变量 的 数目 ， 使 回归 模型 有 最 适 解释 能 力 。 因 为 每 增加 一 
个 特征 ， 就 会 增加 模型 的 解释 能 力 〈(R 方 ，R*) ， 模 型 最 适 解释 能 力 是 ， 如 果 增 加 新 的 特 
征 ， 而 增加 的 解释 能 力 很 小 很 有 限 ， 那 么 原来 的 模型 就 是 最 适 模型 。 主 成 分 分 析 的 碎 石 图 
(screeplot) 或 手 肘 点 〈elbow) ， 找 最 适 主 成 分 的 数目 是 相同 的 概念 。 

自 变 量 〈 特 征 ) 的 选择 ， 在 机 器 学 习 中 称 为 特征 工程 ， 在 人 工 智能 中 称 为 因子 选择 或 
特征 萃取 。 

那么 ， 有 没有 可 能 对 变量 加 以 抽样 ? 答案 有 的 ! 本 书 的 第 12 章 集成 学 习 的 随机 森林 ， 
就 是 对 变量 抽样 ， 每 次 抽样 的 变量 做 一 棵 树 ， 要 做 成 百 上 千 棵 树 。 但 是 ， 这 并 不 是 降 维 分 
析 ， 随 机 森林 对 变量 的 抽样 是 为 了 让 模型 增加 分 类 或 预测 的 准确 性 。 

降 维 分 析 的 变量 主要 是 连续 型 变量 ， 没 有 目标 变量 ， 所 以 属于 非 监督 式 学 习 。 但 是 降 
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维 分 析 的 结果 ， 用 在 其 他 机 器 学 习 的 模型 ， 包 括 监督 式 学 习 和 非 监督 式 学 习 。 将 降 维 分 析 
的 主 成 分 分 析 和 回归 分 析 加 在 一 起 就 是 主 成 分 回归 ， 如 表 5-1 所 示 。 
表 5-1 ED THA 


监督 式 学 习 - 
Logistic 回 归 
天 -近邻 法 
SVM 支持 向 量 机 


RAAT 
层次 聚 类 ， 大 均值 法 


o 主 成 分 分 析 


主 成 分 分 析 (Principal Components Analysis, PCA) 是 分 析 和 简化 数据 集 的 技术 。 主 成 
分 分 析 用 于 减少 数据 集 的 维 数 ， 同 时 保持 数据 集 对 于 “方差 ”贡献 最 大 的 特征 。 方 差 贡 献 
可 以 说 是 特征 变量 的 解释 能 力 ， 统 计 学 的 方差 分 析 也 是 这 个 概念 。 

《大 话 统计 学 》 引 用 赵 民 德 (1999 ) : “ (统计 学 ) 方法 的 一 个 最 大 特点 是 : 统计 
家 深切 地 体 认 到 误差 的 存在 ， 并 积极 地 面 对 可 能 的 误差 ， 而 使 得 经 过 这 套 方 法 所 导出 的 
论 ， 其 因 误 差 而 产生 的 上 暖 昧 减少 。 统 计 学 的 方法 并 不 能 无 中 生 有 ， 但 它 的 确 致力 于 尽量 
滤 去 误差 ， 而 得 到 传统 方法 所 不 能 得 到 的 结论 。 误 差 如 水 ， 真 象 若 石 。 水 落 ， 所 以 石 出 。 
如 果 水 中 原本 无 石 ， 水 落 当然 也 仍然 无 石 。 统 计 的 方法 之 所 以 大 行 其 道 ， 是 因为 误差 的 是 
近代 生活 的 一 部 分 。 一 切 人 类 所 搜集 的 数量 数据 中 ， 其 不 包含 误差 者 百 不 得 一 。 社 会 愈 进 
步 ， 则 所 需要 搜集 与 分 析 的 (包含 着 误差 的 ) 数 据 也 人 钝 多 。 而 我 们 愈 尝试 的 以 无 误差 的 概念 去 
推演 结论 ， 所 得 的 结论 里 便 愈 充满 误差 。 而 统计 方法 ， 因 为 能 正视 误差 的 存在 ， 反 而 可 以 
得 到 更 合理 的 结论 。 统 计 方法 : 围绕 着 包含 了 误差 的 数字 ， 所 做 的 种 种 精巧 的 努力 。” 
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在 第 6 章 模型 评价 ， 考 虑 模型 的 偏差 与 方差 。 


主 成 分 分 析 是 Pearson 于 1901 年 提出 的 一 种 多 变量 统计 方法 ， 用 于 分 析 数 据 及 建立 变量 
维度 的 模型 ， 其 方法 主要 是 通过 对 协 方 差 矩 阵 进 行 特 征 分 解 ， 以 得 出 数据 的 主 成 分 〈 特 征 
HE) 及 其 权 值 〈 特 征 值 ) 。PCA 是 基于 方差 的 降 维 分 析 方法 ， 其 结果 可 以 理解 为 对 原 数 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


据 中 的 方差 做 出 解释 : 哪 一 个 方向 的 数据 值 对 方差 的 影响 最 大 ? PCA 提 供 了 一 种 降低 数据 
维度 的 有 效 办 法 : 如 果 在 原 数 据 中 除 掉 方差 贡献 最 小 的 特征 值 所 对 应 的 成 分 ， 这 样 降低 这 
些 维度 的 成 分 ， 是 失去 信息 最 少 的 方法 。 因 此 ， 主 成 分 分 析 顾 名 思 义 ， 是 找到 重要 成 分 的 
特征 变量 。 

PCA 能 够 为 高 维 数据 提供 一 个 低 维度 的 投影 基 变 换 ， 这 样 就 可 以 利用 少量 的 主 成 分 ， 
使 得 数据 的 维度 降低 ， 而 且 保留 原来 数据 的 结构 。PCA 对 原始 变量 进行 线性 组 合 ， 得 到 优 
化 的 指标 : 把 原先 多 个 指标 的 计算 降 维 为 少量 几 个 经 过 优化 指标 的 计算 〈 占 去 绝 大 部 分 方 
差 的 份额 ) ， 这 些 主 成 分 能 够 反映 原始 变量 的 大 部 分 信息 。 

各 因素 之 间 进 行 协 方差 分 析 ， 并 且 可 能 这 些 变量 中 存在 一 些 兄 余 。 在 这 种 情况 下 ， 宛 
余 意味 着 某 些 变量 彼此 关联 。 这 种 元 余 ，PCA 可 用 于 将 观察 到 的 变量 减少 为 较 少数 量 的 主 
成 分 ， 这 些 成 分 将 考虑 到 观察 到 的 变量 中 的 大 部 分 方差 。 

PCA 是 一 种 数学 方法 ， 将 多 数目 的 (可 能 ) 相关 的 变量 ， 转 换 成 较 少数 目的 不 相关 
ERX) 的 变量 称 为 主 成 分 ， 如 图 5-1 所 示 。 
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图 $-1 主 成 分 分 析 概 念 图 


5.2.1 主 成 分 分 析 的 计算 理论 


主 成 分 分 析 是 降 维 分 析 的 方法 ， 在 数据 信息 丢失 最 少 的 原则 下 ， 从 高 维 的 特征 变量 中 
找 出 低 维 的 变量 称 为 主 成 分 ， 每 一 个 主 成 分 是 原始 变量 的 线性 组 合 ， 尽 可 能 保留 原始 特征 
变异 的 大 多 数 变异 信息 。 

主 成 分 分 析 是 基于 数学 变换 方法 ， 将 给 定 的 特征 变量 8 利用 线性 变换 ， 转 换 为 一 组 互 不 
相关 的 变量 Z。 在 这 种 变换 中 ， 保 持 变量 的 总 方差 不 变 ， 使 第 一 主 成 分 具有 最 大 方差 ， 第 二 
主 成 分 具有 次 大 方差 ， 依 此 类 推 。 主 成 分 分 析 的 计算 理论 是 基于 协 方差 矩阵 的 特征 值 和 特 
征 向 量 ， 如 图 5-2 所 示 。 

若 原始 数据 X 有 p 个 特征 〈 维 列 ) ，n 个 样本 ( 列 ) ， 要 降 维 到 m 个 特征 。 

定义 : 原始 矩阵 了 (nxp) 矩阵， 主 成 分 载荷 (PCA loading) W(pxm)ABEE, ERK 
分 线性 组 合 的 加 权 ， 转 换 为 主 成 分 数据 矩阵 Z (xm) EE. 
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(1) 第 一 个 主 成 分 Z 的 计算 : 
求 wi,i=1,…,p， 使 第 一 个 主 成 分 Z = WX, t +w, EX, NMRA» 


He We mex (Lh wary) | st Dl 


argmaxy, ,Var(XW;) = argmaxy,,, E (XM) )=argmaxps rud 
(2) 如 果 已 经 有 一 7 个 主 成 分 2Z.,i=1…,k 一 1 : id 
人 =- DZ, 
HSE W AB: argmaxy Var (FW, ) - argmaxy, Eur, jj 
G) 上 述 优化 目标 的 丈 求 解 ， 使 用 拉 格 朗 日 乘 子 法 : 
X XT, = AW, 


/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


At: X' 是 协 方差 和 矩阵， 是 其 特征 值 ， 更 是 其 特征 向 量 。 
将 特征 值 排序 4 > 2, >…>> 因 取 前 m 个 特征 值 对 应 的 特征 向 量 丈 = (WW, W,), E 
成 分 分 析 的 解 ， 称 为 主 成 分 载荷 Cloading) 。 


A, (LLA) EE k PERT ATETAR (contribution) 。 
于 "2 是 普 个 主 成 分 的 方差 累积 贡献 率 。 


(4) 主 成 分 载荷 (PCA loading) WJÉPSPESETEL, W, LW,, W/W,-0jizj. 
(5) 最 后 ， 计 算 主 成 分 数据 矩阵 : 


Z-XW 
5.2.2 主 成 分 分 析 的 计算 步骤 


主 成 分 分 析 步 又。 


CD 对 原始 数据 X 标 准 化 处 理 ， 即 每 一 位 特征 减 去 各 自 的 平均 值 二 =X, 天;; 或 原始 
数据 标准 化 处 理 ，=(X, -X:)/ ox。 


D 计算 样本 相关 系数 矩阵 或 协 方差 矩阵 C = cor(Y), C = cov(Y)。 
(3) 计算 协 方差 矩阵 的 特征 值 和 特征 向 量 


> e <- eigen(c) 4 BR 语 言 函数 


对 特征 值 从 大 到 小 排序 ， 保 留 最 大 的 m 个 特征 向 量 。 

计算 特征 值 : > a <- e$value， 计 算 贡 献 率 : 

计算 特征 向 量 : > W <- eSvector 

(4) 选择 重要 的 主 成 分 ， 主 成 分 将 数据 转换 为 m 个 特征 向 量 Z,， 新 空间 Z -YW. 


选择 多 少 个 主 成 分 ， 主 要 是 依据 方差 累积 贡献 率 来 进行 的 。 一 般 情况 上 ， 只 选择 累积 
贡献 率 大 于 85% 的 部 分 。 


5.2.3 主 成 分 分 析 的 优点 和 缺点 


O 主 成 分 分 析 的 优点 


(1) 可 消除 评估 特征 之 间 的 相关 影响 。 因 为 主 成 分 分 析 法 在 对 原始 数据 特征 变量 进行 
变换 后 形成 了 彼此 相互 独立 的 主 成 分 ， 而 且 实 践 证 明 特 征 间 相 关 程 度 越 高 ， 主 成 分 分 析 效 
果 越 好 ， 降 维 效 果 越 好 。 

(2) 可 减少 特征 选择 的 工作 量 ， 对 于 其 他 评估 方法 ， 由 于 难以 消除 评估 特征 间 的 相 
关 影 响 ， 所 以 选择 特征 时 要 花费 不 少 精力 ， 而 主 成 分 分 析 法 由 于 可 以 消除 这 种 相关 影响 ， 


所 以 在 特征 选择 上 相对 容易 些 。 主 成 分 分 析 可 以 消除 各 变量 之 间 的 共 线性 ， 减 少 变量 的 个 
数 ， 有 利于 后 续 的 分 析 。 

(3) 主 成 分 分 析 中 各 主 成 分 是 按 方差 大 小 依次 排列 顺序 的 ， 在 分 析 问 题 时 ， 可 以 舍弃 
一 部 分 主 成 分 ， 只 取 前 面 方差 较 大 的 几 个 主 成 分 来 代表 原 变量 ， 从 而 减少 计算 工作 量 。 用 
主 成 分 分 析 法 做 综合 评估 时 ， 由 于 选择 的 原则 是 累计 贡献 率 之 85%， 不 至 于 因为 节省 了 工 
作 量 把 关键 特征 漏 掉 而 影响 评估 结果 。 

O 主 成 分 分 析 的 缺点 

(1) 在 主 成 分 分 析 中 ， 首 先 应 保证 所 提取 的 前 几 个 主 成 分 的 累计 贡献 率 达 到 一 个 较 高 
的 水 平 ， 即 变量 降 维 后 的 信息 量 须 保持 在 一 个 水 平 。 其 次 对 这 些 被 提取 的 主 成 分 必须 都 能 
够 给 出 符合 实际 背景 和 意义 的 解释 ， 否 则 主 成 分 将 空 有 信息 量 而 无 实际 含义 。 

(2) 主 成 分 的 解释 其 含义 一 般 多 少 带 有 点 模糊 性 ， 不 像 原 始 变 量 的 含义 那么 清楚 
确切 ， 这 是 变量 降 维 过 程 中 不 得 不 付出 的 代价 。 因 此 ， 提 取 的 主 成 分 个 数 m 通 常 应 明显 
小 于 原始 变量 个 数 p»， 否 则 维 数 降低 的 “ 利 ”可 能 抵 不 过 主 成 分 含义 不 如 原始 变量 清楚 的 
“He 。 

(3) 当主 成 分 的 因子 负荷 的 符号 有 正 有 负 时 ， 综 合 评价 函数 意义 就 不 明确 。 


R 语 言 程序 


将 5.2.2 小 节 的 步骤 编程 为 R 语 言 ， 再 和 R 语 言 的 主 成 分 分 析 包 的 结果 比较 。 


[ R 例 5.1 】 主 成 分 分 析 数 据 : X.csv, AMprincomp{stats} 


数据 框 格式 data.frame: 30 个 观察 值 ”4 个 变量 


> # R 例 5.1 

> X «-data.frame( 

+ X1 =c (148, 139, 160, 149, 159, 142, 153, 150, 151, 139, 140, 161, 
* 158, 140, 137, 152, 149, 145, 160, 156, 151, 147, 157, 147, 157, 
* 151, 144, 141, 139, 148) , 

+ X2-c (41, 34, 49, 36, 45, 31, 43, 43, 42, 31, 29, 47, 49, 33, 31, 
+ 35, 47, 35, 47, 44,- 42; 38, 39, 30; 48, 36, 36, 30, 32, 381; 

+ X3=c (72, 71, 77, 67, 80, 66, 76, 77, 77, 68, 64, 78, 78, 67, 66, 
+ 73, 82; 70; 24, 78; 13, 273, 68, 65, 80, 74, 68; 67, 60; 70 5 

+ X4=c (78, 76, 86, 79, 86, 76, 83, 79, 80, 74, 74, 84, 83, 77, 73, 
* 79, 79, 71, 87, 85, 82, 78, 80, 75, 88, 80, 76, 76, 73, 78) ) 

» write.csv(X, file — "C:/R/X.csv") 


» X «- read.csv("C:/R/X.csv", head-T) 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


» str(X) 

» X «- read.csv("C:/R/X.csv", head-F) 

» X «- as.matrix(X) 

» Y «- scale(X, scale-TRUE) +x 标准 化 处 理 
2 E 

> + 协 方差 矩阵 

> (Cor <- cor(Y))  # Cor = XAIBXAEUERE 

> (Cov «- cov(Y)) # Cov = X 协 方差 矩阵 

> (e <- eigen(Cov)) 

> + 特征 值 

> (a <- as.matrix(e$values)) # a = 特征 值 


[,1] 
[1,] 3.5411 
[2,] 0.3134 
[3,] 0.0794 
[4,] 0.0661 


# 主 成 分 的 方差 贡献 率 
> (b <- a / sum(a)) # b = 主 成 分 的 方差 贡献 率 
Lil 
[1,] 0.8853 
[2,] 0.0783 
[3,] 0.0199 
[4,] 0.0165 
+ 特征 向 量 
(W <- as.matrix(e$vectors)) # W = 特征 向 量 
L1  [,2]  [,3] [,4] 
[1,] -0.497 0.543 -0.450 0.506 
[2,] -0.515 -0.210 -0.462 -0.691 
[3,] -0.481 -0.725 0.175 0.461 
[4,] -0.507 20.368 20.744 -0.232 
> + 主 成 分 
> (d«-Y $*& W); (f«- X &*% W) 
> $ 直接 用 R 语言 的 主 成 分 分 析 包 "princomp" 
> G «- princomp(Y, cor=TRUE) 


v 


MOM 


> summary (G, loadings-TRUE) 


Importance of components: 

Comp .1 Comp.2 Comp.3 Comp.4 
Standard deviation 1.882 0.5598 0.2818 0.2571 
Proportion of Variance 0.885 0.0783 0.0199 0.0165 
Cumulative Proportion 0.885 0.9636 0.9835 1.0000 


#02 RAN 


Loadings: 

Comp .1 Comp .2 Comp.3 Comp .4 
X1 0.497 0.543 0.450 0.506 
X2 0.515 -0.210 0.462 -0.691 
X3 0.481 -0.725 -0.175 0.461 
X4 0.507 0.368 -0.744 -0.232 


> screeplot(G, type-"lines") + 碎 石 图 如 图 5-3 所 示 
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结果 中 的 Comp.1、Comp.2、Comp.3 和 Comp.4 是 计算 出 来 的 主 成 分 ，Standard deviation 
代表 每 个 主 成 分 的 标准 差 ，Proportion of Variance 代 表 每 个 主 成 分 方差 的 贡献 率 ，Cumulative 
Proportion 代 表 各 个 主 成 分 的 累积 贡献 率 。 第 一 主 成 分 、 第 二 主 成 分 、 第 三 主 成 分 和 第 四 主 
成 分 都 是 刀 、 刀 、 允 和 到 的 线性 组 合 。 

数据 的 成 分 经 过 线性 变换 得 到 了 各 个 主 成 分 。 然 而 并 不 是 每 个 主 成 分 的 作用 都 非常 
关键 ， 因 此 ， 只 选择 作用 比较 关键 的 几 个 ， 即 选择 累积 贡献 率 达 到 80% 的 前 几 个 主 成 分 即 
可 ， 这 R 例 5.1 中 选择 前 两 个 ， 毕 竞 第 二 主 成 分 的 贡献 率 也 比较 大 。 

在 得 到 主 成 分 的 基础 上 进行 回归 也 好 进行 聚 类 也 好 ， 就 不 再 使 用 原始 的 妨 、 到 、 妈 和 
了， 而 是 使 用 主 成 分 的 数据 。 


/ 估 话 数据 科学 


了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


数据 框 格式 data .frame: 150 个 观察 值 ”5 个 变量 


+ R 例 5.2 
install.packages ("psych") 
library (psych) 


irispca <- princomp(iris[-5]) 


VV V MOM 


summary (irispca) 


Importance of components: 

Comp.1 Comp .2 Comp.3 Comp. 4 
Standard deviation 2.0494032 0.49097143 0.27872586 0.153870700 
Proportion of Variance 0.9246187 0.05306648 0.01710261 0.005212184 
Cumulative Proportion 0.9246187 0.97768521 0.99478782 1.000000000 


> irispcl <- principal (iris[1:4],2,rotate="varimax", 
+ normalize-FALSE, eps=le-14 ) 
> print (irispcl, digits=3) 


Principal Components Analysis 
Call: principal(r = iris[1:4], nfactors = 2, rotate = "varimax", 
normalize = FALSE, eps = le-14) 

Standardized loadings (pattern matrix) based upon correlation matrix 
RC1 RC2 h2 u2 com 

Sepal.Length 0.959 0.048 0.923 0.07740 1.01 

Sepal.Width -0.144 0.985 0.991 0.00908 1.04 

Petal.Length 0.944 -0.304 0.984 0.01627 1.21 

Petal.Width 0.932 -0.257 0.935 0.06472 1.15 


RC1 RC2 
SS loadings 2.702 1.131 
Proportion Var 0.675 0.283 
Cumulative Var 0.675 0.958 


Proportion Explained 0.705 0.295 
Cumulative Proportion 0.705 1.000 


5.4.2 美国 罪犯 数据 


美国 罪犯 数据 USArrests 是 1973 年 美国 50 个 州 中 每 10 万 人 ， 奸 捕 到 谋杀 罪 、 殴 击 罪 、 强 


奸 罪 的 犯人 数 ， 以 及 占 城市 人 口 的 比例 。 数 据 是 数据 框 格式 ， 有 50 个 州 记录 和 4 个 变数 。 


(1) Murder 逮捕 到 谋杀 罪犯 人 数 〈 每 10 万 人 ) 。 


(2) Assault 逮捕 到 殴 击 罪犯 人 数 (每 10 万 人 ) 。 

(3) UrbanPop 城市 人 口 的 比例 。 

(4) Rape 逮捕 到 强奸 罪犯 人 数 〈 每 10 万 人 ) 

[ R 例 5.3 】 jg. US 、 PC actoMineR ) 


数据 框 格式 data frame: 50 州 观 察 值 ”4 个 变量 


> # R 例 5.3 
> if(!require(pheatmap)) install.packages ("pheatmap") 
> library(pheatmap) ; library(FactoMineR) ; library (factoextra) 
» data(USArrests) ; USArrests ; dim(USArrests) 
> St <- c(" AR", "CA", "CO", "CT", "DE", "FL", "GA", 
* "HI", "ID", "IL", "IN", "IA", "KS", "KY", "LA", "ME", "MD", "MA", 
+ "MI", "MN", "MS", "MO", "MI", "NE", "NV", "NH", "NJ", "NM", "NY", 
+ et "NDA, “MOH, "OR", "OR, "pae, SRE"). "SCM, tSpi, TIN, Sy". 
i SUE") SVEN), SVAN, SWAT, "WU, "WIN, SUE") 
> row.names(USArrests) «- St + 州 名 改 缩写 
> pea «- prcomp(USArrests, scale -TRUE) # 主 成 分 分 析 ， 数 据 标准 化 
> str(pca) ; names (pca) # pca 结构 是 列表 ， 有 5 个 成 分 
> pca 
Standard deviations (l, .., p=4): 
[1] 1.5748783 0.9948694 0.5971291 0.4164494 
Rotation (n x k) = (4 x 4): 
Pcl PC2 PCS PC4 
Murder -0.5358995 0.4181809 -0.3412327 0.64922780 
Assault -0.5831836 0.1879856 -0.2681484 -0.74340748 
UrbanPop -0.2781909 -0.8728062 -0.3780158 0.13387773 
Rape -0.5434321 -0.1673186 0.8177779 0.08902432 
> 4 第 一 个 主 成 分 是 谋杀 罪犯 、 殴 击 罪犯 、 强 奸 罪犯 人 数 
> 4 第 二 个 主 成 分 是 占 城市 人 口 的 比例 
> pca$rotation = - pca$rotation 
> 4 pca 改 为 负 号 ， 不 影响 主 成 分 分 析 ， 只 是 换个 方向 
> pca$x = - pca$x ; biplot(pca, scale-0) 
> pca$x ; pca$sdev ; (pca.var-pca$sdev^2) 
> (pve = pca.var/sum(pca.var)) 
» plot(pve, xlab-"Principal Component", ylab-"Proportion of Variance 
* Explained", ylim-c(0, 1), type-"b") 


结果 如 图 5-4 所 示 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 
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图 5-4” 主 成 份 特征 值 ， 方 差 贡 献 率 与 方差 累积 贡献 率 


plot (cumsum (pve), xlab="Principal Component", ylab="Cumulative 
Proportion of Variance Explained", ylim=c(0,1), type="b") 

SX <- scale(USArrests) 

SX $*$ pca$rotation # SX $** pca$rotation = pca$x 

prcomp(~ Murder + Assault + Rape, data = USArrests, scale = TRUE) 
+ R 中 作为 主 成 分 分 析 的 函数 是 princomp () 函数 

* princomp() 主 成 分 分 析 ， 可 以 从 相关 阵 或 者 从 协 方差 阵 做 主 成 分 分 析 

# summary() 提取 主 成 分 信息 

# loadings() 显示 主 成 分 分 析 或 因子 分 析 中 载荷 的 内 容 

loadings(pc.cr) # 特征 向 量 的 矩阵 ， 对 应 rotation in prcomp 

# predict() 预测 主 成 分 的 值 

# screeplot() 画 出 主 成 分 的 碎 石 图 

# biplot() ” 画 出 资料 关于 主 成 分 的 散 点 图 和 原 坐 标 在 主 成 分 下 的 方向 

(pc.cr «- princomp(USArrests)) # 变量 没有 标准 化 

princomp (USArrests, cor = TRUE) 

4 比较 结果 prcomp(USArrests, scale-TRUE) 

+ 标准 差 相差 sqrt (49/50) 

summary (pc.cr <- princomp(USArrests, cor = TRUE) ) 

loadings(pc.cr) # note that blank entries are small but not zero 


## The signs of the columns of the loadings are arbitrary 


| X IA NL A NL AEL ILL EL UD ELA SL M SLE EL: 


plot(pc.cr) ; bipiot (pc.cr) 


结果 如 图 5-5 所 示 。 


PC2 


Vo VV VV OM OM ee Vv YVvYVvV VM VON OM UO OM VO vO UON 


-05 00 05 6 4 2 0 2 4 6 8 
1 1 1 —— ——M M" 
o 4 MS [rom 
UrbanPop FM NC 
SC PN 
TOM 
o a 
上 2 84 ww 
"ium NJ CA AR AL AK pos 
-4 CT wy, sD K LA . Murder 
MN ul IL Nw e SND F^ 
wi PA R = We Oy D. Assault 
wA NE KSI! MI Lo 5 ID VA M 
7 ME D wy VA NM Firs $3] Ww" B. We 
局 MT D a KABA MOM Rape 
xl SD KY x wmn PA OR I e 
ý AURA E OH Le Nv 
vt w BA ui cr WA co 
| 9 ~ 上 ¥ 
~x- SC 4 
wre 3 AUA Ny CA 
UrbanPop pe 
EN T T T T T T 
T T T T T T T 02 -0.1 0.0 0.1 02 o3 
3 2 4 0 1 2 3 
Comp.1 
Pct 


图 5-5” 主 成 分 分 析 


pca <- PCA(USArrests, graph = FALSE) 

fviz eig (pca) + 图 5-6 

fviz pca ind(pca, repel = TRUE) ; fviz pca var(pca) 
fviz pca biplot(pca, repel = TRUE) # 图 5-7 


pca$eig * 特征 值 

var <- pca$var 4 方差 
var$coord + 主 成 份 坐标 
var$contrib + 主 成 份 贡献 
var$cos2 + 主 成 份 贡献 百分比 


ibrary(cluster) ; library(factoextra) ; library("factoextra") 

Sca data «- scale(USArrests) 

fviz nbclust(sca data, kmeans, method = "gap stat") # 图 5-8 

km <- kmeans(sca data, 4, nstart = 25) # k-means 
fviz_cluster(km, data = sca_data, palette = "jco", ggtheme = theme_ 
minimal() ) 4 图 5-9 

pam «- pam(sca data, 3) ; fviz_cluster(pam) # 图 5-10 

# Compute hierarchical clustering and cut into 4 clusters 

hc <- hclust(dist(USArrests), method = "ward.D2") 4 层次 聚 类 
fviz dend(hc, cex = 0.5, k = 4, palette = "jco") 

res <- hcut(USArrests, k = 4, stand = TRUE) # 层次 聚 类 

fviz dend(res, rect - TRUE, cex - 0.5, 

k colors = c("#00AFBB","#2E9FDE", "#E7B800", "#FC4E07")) 4 图 5-11 
pheatmap(t(sca data), cutree cols = 4) # 图 5-12 


/ 估 语 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 
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图 5-8 k-mean 的 gap stat 
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图 5-9 K-mean 法 4 类 
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图 5-11 ”层次 聚 类 


图 5-12 热 图 


美国 律师 对 高 等 法 院 法 官 评 分 数据 框 格 式 data.frame: 43 法 官 观察 值 ”12 个 变量 


> # R 例 5.4 

> library (ggplot2) 

» data(USJudgeRatings) ; str(USJudgeRatings) 

» pca «- prcomp(USJudgeRatings, scale. - T,rank-2,retx-T) 

> xlab <- paste("PCl","(",round((summary (pca) )$importance[2,1]*100,1), 
* "$)",sep-"") 

> ylab <- paste("PC2","(",round((summary (pca) )$importance[2,2]*100,1), 
* "$)", sep-"") 

b x«-"PCYP e i a aT 

> data x <- data.frame (varnames=rownames (pca$x), pca$x) 

> plotl <- ggplot (data_x,aes (PC1,PC2) )+ geom point 

+ (aes(color-varnames), size=3) + coord equal (ratio=1) 

+ xlab(xlab)+ylab(ylab) 

> data rotation <- data.frame (obsnames-row.names (pca$rotation), 

* pca$rotation) 

> mult <- min( (max(data x[,y]) - min(data x[,yl) 

+ /(max(data rotation[,y])-min(data rotation[,y]1))), (max(data x[,x])- 
+ min(data x[,x])/(max(data rotation[,x])-min(data rotation[,x]))) ) 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


> data2 <= transform(data rotation,v1 = mult* (get (x)), 

+ v2 = mult * (get(y)) ) 

> plotl<-plotl+ geom segment (data-data2,aes(x-0, y-0,xend-v1,yend-v2), 
+ arrow=arrow(length=unit (0.2,"cm")), alpha-0.75) 

> plotl<-plotl+geom_text (data=data2, aes(vl,v2,label=obsnames), 

+ size=3, nudge x--0.05, ieee 

> plotl <- ploti+scale color discrete (guide=guide_legend (title= 

+ "stage type")) + theme bw() theme(plot.background = element blank() 
+ panel.background-element blank(), panel.grid.minor-element blank(), 
+ panel.grid.major-element blank(), axis.title = 


* element text (color-"black",size-15), 


+ axis.text-element text(size-15)) +guides (color-F) 


> plotl 
结果 如 图 $-13 所 示 。 
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5.4.4 ”国家 冰球 联盟 资料 


数据 NHLtrain. 函数 principal{psych} 
数据 框 格式 data.frame: 30 个 球 队 观 察 值 ”15 个 变量 
(D Team; @ppg; @Goals For; @Goals Against; @Shots For; ©@Shots Against; 
@PP pere; PK perc; (S)CF60 pp; CAG60 sh; DOZFOperc pp; Give; 
@®Take; @ hits; @blks 


> # R 例 5.5 
> library(ggplot2) ; library (psych) 


» train «- read.csv("C://R/NHLtrain.csv") 
> str(train) ; names (train) 
» train.scale «- scale(train[, -1:-2]) 
» nhl.cor - cor(train.scale) 
> cor.plot(nhl.cor) 图 5-14 
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图 5-14 ”相关 系数 图 


> pca «- principal(train.scale, rotate-"none") 
» plot(pca$values, type-"b", ylab-"Eigenvalues", xlab-"Component") 
> [5-15 
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图 5-15” 主 成 份 分 析 特 征 值 


/大 话 数据 科学 
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也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) | 


pca.rotate «- principal(train.scale, nfactors = 5, 

rotate = "varimax") 

pca.rotate 

pca.scores <- data.frame (pca.rotate$scores) 

head (pca.scores) 

pca.scores$ppg <- train$ppg 

+ 主 成 分 回归 ， 用 主 成 分 变量 对 因 变 量 ppg 作 回归 ， 回 归 分 析 详 见 第 7 章 
nhl.lm <- lm(ppg ~ ., data = pca.scores) 

summary (nhl.1lm) 

nhl.lm2 <- lm(ppg ~ RC1 + RC2, data = pca.scores) 

summary (nhl.1m2) 

plot(nhl.lm2$fitted.values, train$ppg, main-"Predicted versus 
Actual", xlab-"Predicted", ylab="Actual" ) 

train$pred <- round(nhl.lm2$fitted.values, digits = 2) 

p <- ggplot(train, aes(x = pred, y = ppg, label = Team)) 

p * geom point() * geom text(size-3.5, hjust-0.1, vjust--0.5, 
angle=0)+ xlim(0.8, 1.4) « ylim(0.8, 1.5) « stat smooth (method-"lm", 
Se-FALSE) 图 5-16 


图 5-16” 主 成 分 回归 


pca.scores$Team «- train$Team 

p2 <- ggplot(pca.scores, aes(x = RCl, y = RC2, label = Team)) 

p2 + geom point() + geom text(size = 2.75, hjust = .2, vjust = 
= 0.75, angle = 0) + xlim(-2.5, 2.5) + ylim(-3.0, 2.5) 5-17 
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图 5-17 ERIE 


sqrt (mean (nh1.1m2$residuals^2)) 
<- read.csv ("C://R/NHLtest.csv") 


Scores «- data.frame (predict (pca.rotate, 


test 
test. test[, 
test.scores$pred «- predict(nhl.lm2, test.scores) 
test.scores$ppg <- test$ppg 
test 
p <- pred, y - ppg, 
p + geom point() + geom text(size-3.5, hjust-0.4, vjust 

angle = 35) + xlim(0.75, 1.5) + ylim(0.5, 1.6) + 

stat smooth (method="1m", se=FALSE) 


resid <- test.scores$ppg - test.scores$pred 


-Scores$Team <- test$Team 


ggplot(test.scores, aes(x - label = 


POM NOUN OME vU UON 


P 


v 


> sqrt (mean (resid^2)) 


5.4.5 ”美国 职业 棒球 数据 


2012 年 美国 职业 棒球 MLB 的 数据 框 : 30 个 球 队 观察 值 “14 个 变量 


# R 例 5.6 
data «- read.csv("C://R/2012MLB.csv", 
str(data) ; head(data) 


headersT, seps",") 


c(-1:-2)])) 


Team) ) 
= -0.9, 


pca <- prcomp (formula=~H1B+H2B+H3B+HR+RBI+SB+BB, data=data, scale = TRUE) 


wow OM UON 


pca ; plot(pca, type-"line", main-"Scree Plot for 2012MLB") 


/大 话 数据 科学 
二 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) ] 


> abline(h-1, col-"blue") 图 5-18 
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vars «- (pca$sdev)^2 

# 从 pca 中 取出 标准 差 (pca$sdev) 后 再 平方 ， 计 算 variance (特征 值 ) 
vars # 求 出 每 个 主 成 分 的 特征 值 (也 就 是 variance = std^2) 

# 计算 每 个 主 成 分 的 解释 比例 = 各 个 主 成 分 的 特征 值 /总 特征 值 
(props <- vars / sum(vars)) 

cumulative.props <- cumsum(props) # 累加 前 n 个 元 素 的 值 
cumulative.props 

cumulative.props[3] # 取 前 三 个 主 成 分 ， 可 以 解释 70.645 的 变异 
# 累积 解释 比例 图 

plot (cumulative.props) 

# pca$rotation 

(top3 pca.data «- pca$x[, 1:3]) 

+ 特征 向 量 ( 原 变量 的 线性 组 合 ) 

pca$rotation 

top3.pca.eigenvector <- pca$rotation[, 1:3] 
top3.pca.eigenvector 

first.pca «- top3.pca.eigenvector[, 1] + ”第 一 主 成 分 
second.pca <- top3.pca.eigenvector[, 2] + 第 二 主 成 分 
third.pca <- top3.pca.eigenvector[, 3] + ”第 三 主 成 分 
first .pca [order (first.pca, decreasing-FALSE)] 


V V M V VV VV MOV VV VV VV VM VY VY OY 


dotchart (first.pca[order (first.pca, decreasing=FALSE)] , 


+ main-"Loading Plot for PCl", xlab-"Variable Loadings", col-"red") 


> biplot(pca, choices-1:2) # 主 成 分 负荷 图 ， 图 5-19 


PC2 


PC1 
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5.4.6 早餐 麦片 数据 


【 R 例 5.7 】 早餐 麦片 :数据 UScereal.csyv， 
数据 框 格 式 data.frame: 65 个 品牌 观察 值 


> 4 R 例 5.7 

> library(MASS) ; data(UScereal) ; (UScereal) ; str(UScereal) 
» cereal «- UScereal [, -c(1,11)] 

» cer «- as.data.frame(cereal) 


> (pcs <- prcomp(cer, scale-TRUE)) ; summary (pcs) 


5.4.7 ”红酒 数据 


> 4 R 例 5.8 


> wine «- read.csv("C://R//wine.csv") ; str(wine) 


> psb «- prcomp(wine[,-1]) # 没有 标准 化 


> summary (psb) 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


> (psc <- psb$rot[,1:4]) 


5.4.8 ”心理 学 数据 


美国 芝加哥 郊区 七 年 级 和 八 年 级 学 生 145 个 学 生 “24 个 测验 的 相关 矩阵， 列表 List 格 式 


* R 例 5.9 
if (! require (psych) ) {install.packages ("psych") } 
library (psych) ; Str(Harman74.cor) 


pc <- principal (Harman74.cor$cov,4,rotate-"varimax") 


mr «- fa(Harman74.cor$cov,4,rotate-"varima 


x") # minres factor analysis 
pa <- fa(Harman74.cor$cov, 4, rotate="varimax", fm="pa") 
# principal axis factor analysis 


round (factor.congruence (list (pc, mr, pa) ) , 2) 


pc2 <- principal(Harman.5, 2, rotate="varimax") 
round (cor (Harman.5, pc2$scores) ,2) 
+ 比较 相关 和 矩阵 和 共 变 量 和 矩阵 的 主 成 分 分 析 


pc2o <- principal (Harman.5,2,rotate-"promax",covar-TRUE) 


round (cov (Harman.5,pc20$scores),2) 
pc2o$Structure 


» 

> 

> 

> 

> 

> 

> 

> 

> str (Harman.5) 
> 

> 

> 

> 

> 

> 

> biplot(pc2,main-"Biplot of the Harman.5 socio-economic variables", 
+ 


labels-paste0(1:12)) 5-20 


Biplot of the Harman.5 socio-economic variables 
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图 5-20” 主 成 分 负荷 图 


> plot(pa) # 因子 分 析 Factor analysis, [85-21 
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> plot (pc) # 主 成 分 分 析 Principal component analysis, 图 5-22 
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图 5-22” 主 成 分 分 析 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


eo 本 章 思维 导 图 | 


基 rim 数据 标准 化 


主 成 分 


步骤 au ”> 新 变量 > re 计算 理论 
主 成 分 分 析 计算 步骤 : R 例 5.1 


主 成 份 计算 CRAB 2 xg 


分 析 


计算 


> me 


> 


R stats::prcomp 


stats::princom, 
R 包 :: 函 数 TE 


psych::principal 
FactoMineR::PCA 


GÆR iris 数据 : R 例 5.2 


降 维 分 析 


美国 罪犯 USArrests 数据 : R 例 5.3 


国家 冰球 联盟 NHLtrain 数据 : R 例 5.5 


美国 职业 棒球 2012MLB 数据 : R 例 5.6 E 
早餐 麦片 UScereal 数据 : “rl 


红酒 wine 数据 : R 例 5.8 全 


心理 学 Harman 数据 : R 例 5.9 


监督 式 学 习 (Supervised learning) ， 是 机 器 学 习 的 一 种 
算法 ， 可 以 由 训练 资料 中 学 到 或 建立 一 个 模式 ， 并 依 此 模式 
推测 新 的 案例 。 本 篇 内 容 涵 盖 各 种 监督 式 学 习 算 法 和 案例 。 
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第 6 章 一 一 一 


模型 选择 与 评价 NA 


凡 喜 爱 的 都 必 考察 。 
一 一 《圣经 -诗篇 》 
凡 我 所 疼爱 的 ， 我 就 责备 管教 他 ; 
所 以 你 要 发 热心 ， 也 要 悔改 。 
一 一 《启示 录 》 


. 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


o 模型 选择 与 评价 步骤 | 


本 书 前 面 几 章 是 非 监督 式 学 习 模型 ， 就 是 没有 因 变 量 或 目标 变量 ， 没 有 目标 分 类 的 标 
签 值 ， 或 目标 预测 的 实数 值 。 从 本 章 开始 是 监督 式 学 习 模型 ， 所 以 有 因 变 量 或 目标 变量 。 

非 监 督 式 学 习 是 没有 “老师 ” (目标 变量 ) ， 所 以 “学 生 ”【〔 记 录 实 例 或 自 变量 》 
要 自 求 多 福 自 己 修 习 ， 例 如 聚 类 分 析 〈 实 例 组 成 小 组 分 群 ) 、 降 维 因 子 分 析 〈 自 变量 线性 
AA) 、 项 目 关联 分 析 《〈 自 己 找 关 系 ) 、 网 络 关 系 分 析 〈 相 互 关联 ) 、 序 列 分 析 《〈 自 己 排 
队 ) 等 。 

序列 分 析 有 时 间 观 察 值 的 序列 分 析 、 项 目 关 联 的 序列 分 析 、 文 本 字符 串 的 序列 分 析 、 
网 页 的 序列 分 析 (PageRank) 、 财 务 股票 数据 的 序列 分 析 等 。 本 书 暂时 不 介绍 序列 分 析 。 

监督 式 学 习 是 有 “老师 ” (目标 变量 ) ， 作 为 训练 、 验 证 和 测试 。 测 试 有 是 非 题 (0-1 
DR) 、 选 择 题 (多 元 分 类 ) 、 计 算 题 (数值 回归 )〉、 老 师 评 分 (评价 ) ， 是 非 题 和 选择 
题 用 混淆 矩阵 的 正确 率 评价 ， 计 算 题 用 误差 均 方 和 评价 。 

半 监 督 式 学 习 是 先 训练 一 些 学 生变 成 老师 ， 再 作 监 督 式 学习 。 

第 13 章 推荐 系统 也 没有 目标 变量 ， 本 来 应 该 属于 非 监督 式 学 习 ， 但 是 因为 运用 近邻 法 
的 观念 和 评价 方法 ， 所 以 放 在 本 书 最 后 介绍 。 

监督 式 模型 的 选择 与 评价 的 步骤 ， 如 图 6-1 所 示 。 

(1) 抽样 (sampling) : 将 数据 分 为 训练 数据 (train data) 、 验 证 数据 (validate 
data) 、 测 试 数据 (test data) ， 抽 样 方法 有 保留 方法 抽样 、 分 层 抽样 、 过 采样 、 自 助 法 抽 
样 、 袋 外 抽样 。 

(2) XUE (cross-validation) : 交叉 验证 是 将 数据 分 成 等 份 ， 每 次 将 取出 k-1 部 
分 作 训 练 数据 ， 另 为 一 部 分 作 验 证 数据 。 这 样 可 以 选择 更 正确 的 模型 。 

G) 模型 选择 : 模型 的 复杂 度 、 偏 差 与 方差 、 模 型 调 参 。 

(4) 测试 数据 预测 : 模型 选择 出 来 ， 要 利用 测试 数据 预测 结果 。 

(5) 模型 评价 ; 将 预测 结果 和 测试 数据 的 目标 变量 值 做 比较 ， 目 标 变量 是 分 类 因子 ， 
评价 用 混淆 矩阵 。 目 标 变量 是 数值 ， 评 价 用 误差 均 方 和 。 


#05 EET 


所 有 数据 


重 置 ， 不 重 置 抽样 保留 抽样 
训练 数据 
测试 数据 


模型 参数 选择 >predict(fit, newdata) 


>fit<-knn(tr, te, k=3) 建 模 : 分 类 回归 
交叉 验证 | 训练 与 验证 数据 


>tre<-trainControl(method="cv", number=10) 
>model<-train(Y~., data, method, trControl-trc) 


分 类 模型 评价 
混淆 矩阵 
回归 模型 评价 


最 后 评价 预测 MSE、MAE 


图 6-1 ”模型 选择 与 评价 步骤 


o 大 数据 的 抽样 方法 


大 数据 的 抽样 方法 如 图 6-2 所 示 。 
不 重 置 抽样 一 -比例 抽样 
保留 自助 抽样 
抽样 人 一 重 置 抽样 < 
大 数据 分 层 抽样 
抽样 
留 一 交叉 验证 
交叉 x 
验证 N aae x abu — STE IE 
图 6-2 大 数据 的 抽样 方法 
R 语 言 抽样 方法 的 名 称 和 参数 见 表 6-1 所 示 。 


/大 语 数据 科学 
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表 6-1 R 语言 抽样 方法 的 名 称 和 参数 


抽样 方法 


了 ==0.75〔 训 练 数据 比例 》 


k-5 Gdfr, ERU BS 


IE 


[| 
eco mpl 


例如 : 


> ctrl «- trainControl (method = "repeatedcv", number = 10, repeats = 10) 


6.2.4 保留 方法 抽样 


保留 方法 holdout method) 是 从 数据 抽样 中 保留 一 部 分 作 训练 数据 ， 一 部 分 作 验证 数 
据 ， 一 部 分 作 测试 数据 ， 按 比例 抽样 ， 如 图 6-3 所 示 。 


训练 数据 验证 数据 测试 数据 
图 6-3 “保留 抽样 不 重 置 抽样 


有 的 分 析 只 有 训练 数据 和 测试 数据 ， 如 图 6.4 和 【R 例 6.2】。 
了 及 语言 抽样 会 设 定 一 个 种 子 ， 通 常 是 为 了 下 次 执行 这 个 程序 ， 有 相同 的 结果 。 


> set.seed(2019) 
> set.seed(123) 


数据 框 格式 data.frame: 1000 个 观察 值 ”17 个 变量 


z0: EE 


保留 抽样 
自助 抽样 
632 自 助 抽样 
训练 误差 
(偏差 ) 


1 】 保 留 抽 样 der{base} 


# R 例 6.1 

credit «- read.csv("C:/R/credit.csv") 

str (credit) # 1000 个 观察 值 ，17 个 变量 
set.seed(100) 

rand <- order (runif (1000)) #1 到 1000 不 重 置 随机 抽样 

train «- credit[rand[1:650],] + 650 个 训练 数据 

validate «- credit[rand[651:850],] # 200 个 验证 数据 

test «- credit[rand[851:1000],] # 150 个 测试 数据 

str(train) ; str(validate) ; str(test) no yes 
table (credit$default) 790 300 
# train = sample(1:1000, size-500) 4 抽样 半数 当 训练 数据 

# test = (-train) # 另外 半数 当 测 试 数据 


数 createDataPartition{car' 


数据 框 格式 data.frame: 1000 个 观察 值 17 个 变量 


> 
> 
> 
> 
> 
> 
> 
> 


# R 例 6.2 

if (!require (caret) ) {install.packages ("caret") } 

library (caret) 

trval «- createDataPartition(credit$default, p = 0.75, list = FALSE) 
# 根据 变量 default (700 no, 300 yes) 分 层 抽样 753 为 train 训练 集 


train <- credit[trval, ] no yes 
525 225 


test «- credit[-trval, ] 


str(train) 


/大 语 数 据 科学 
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> table (train$default) no yes 
> table (test$default) 175 75 


6.2.2 自助 抽样 法 


自助 估计 法 (Bootstrap confidence interval) 是 统计 学 的 估计 ， 而 不 是 大 数据 /数据 科学 
的 方法 ， 自 助 估计 法 是 只 有 一 个 变量 的 均值 或 方差 的 估计 。 因 为 介绍 自助 抽样 方法 ， 自 助 
抽样 是 重 置 抽 样 或 返回 抽样 ， 就 是 抽样 后 再 将 样本 放 回 去 ， 可 以 再 抽 下 一 个 样本 。 

自助 估计 法 是 利用 原样 本 数据 ， 当 作 总 体 再 重 置 抽样 多 次 ， 根 据 其 统计 值 ， 做 直方 
图 ， 找 出 置信 区 间 。“bootstrap” 原 意 是 长 统 靴 带 ，“ 了 Pull oneself by one’ sown bootstrap” 
意思 是 “ 靠 自 己 力量 而 成 功 ”， 所 以 称 为 自助 抽样 (bootstrap sampling) 。 自 助 置 信 区 间 
法 适用 于 非 正 态 分 配 的 总 体 ， 或 者 是 较 复杂 的 参数 估计 。 对 于 小 数据 集 ， 自 助 抽样 效果 
很 好 。 

以 下 是 一 个 变量 均值 的 自助 估计 法 的 步骤 。 

(1) 已经 抽出 个 样本 ， 将 这 个 样本 编号 ， 令 i= 1。 

(2) n 个 样本 当 作 总 体 ， 随 机 抽样 m 个 出 来 。 随 机 抽样 是 返回 式 重 置 抽样 ， 所 以 抽出 
的 m 个 值 可 能 有 重复 。 

G) 抽出 的 个 样本 计算 估计 量 ( 如 下)， 得 到 如 二 》。 

(4) i=i+] 重复 第 2，3 步 上 次。 

G) 460, i=l, 2, «o 大 画 出 直方 图 ， 在 直方 图 上 找 出 1- a 置信 区 间 。 

【例题 】 下 列 10 个 样本 数据 ， 计 算 平均 数 w 的 95% 自力 置信 区 间 。 

16, 12, 14, 6, 43, 7, 0, 54, 25, 13 

解答 : 10 个 样本 数据 编号 1，2，3，…，9，0。 从 随机 数 表 中 ， 抽 出 10 个 随机 数 资 
料 : 3，9，6，5，7，6，4，5，4，5。 得 到 10 个 样本 数据 : 14, 25, 7, 43, 0, 7, 6, 
43, 6, 43. FLAX, =19.4 。 

重复 上 述 步 又， 再 抽出 10 个 随机 数 ， 计 算 平 均 数 ， 重 复 K= 1000 次 。 得 到 五 ，i = 
1，…，1000， 画 出 直方 图 。 

平均 数 的 95 % 自力 置信 区 间 10< yu S31 


【 R 例 6.3 】 自 助 估计 : SdEx10.csv, AMboot. boot.ci{boot} 
向 量 格式 vector: 10 个 观察 值 ”1 个 变量 


> # R 例 6.3 
> require("boot") # library (boot) 
> mymean <- function(x,indices) mean (x[indices]) 


» x10 «- c(16, 12, 14, 6, 43, 7, 0, 54, 25, 13) 


» boots «-boot(x10, mymean, R-999, stype-"i", sim-"ordinary") 
» boot.ci(boots, conf-0.95, type - c("norm", "basic","perc", "bca")) 


BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS 
Based on 999 bootstrap replicates 


CALL : 
boot.ci(boot.out = boots, conf = 0.95, type = c("norm", "basic", 
"perc", "bca")) 


Intervals : 
Level Normal Basic 
95$  ( 9.13, 29.48 ) ( 8.40, 28.50 ) 


6.2.3 632 自 助 法 


632 自 助 法 ， 假 设 给 定 的 数据 集 包含 4 个 样本 ， 该 数据 集 有 放 回 地 抽样 4 次 ， 产 生 q 个 样 
本 的 训练 集 。 这 样 原 数据 样本 中 的 某 些 样本 很 可 能 在 该 样本 集中 出 现 多 次 。 没 有 进入 该 训 
练 集 的 样本 最 终 形成 检验 集 ( 测 试 集 ) 。 每 个 样本 被 选中 的 概率 是 1/4， 因 此 未 被 选中 的 概 
率 就 是 (1-1/4) ， 这 样 一 个 样本 在 训练 集中 没 出 现 的 概率 就 是 4 次 都 未 被 选中 的 概率 ， 即 
(1-1/4)”。 当 q 趋 于 无 穷 大 时 ， 这 一 概率 就 将 趋 近 于 en =1/e=0.368 ， 所 以 留 在 训练 集中 
的 样本 大 概 就 占 原来 数据 集 的 63.2%。 
和 袋 外 抽样 〈out of bag, OOB) 是 在 训练 集中 没 出 现 的 样本 当 作 测试 样本 。 
TY 抽样 估计 : BH i 
模拟 〈 仿 真 )632 自 助 抽样 向 量 格式 vector: 10 个 观察 值 1 个 变量 


> 4 R 例 6.4 

> N <- 11:100 # 90 次 抽样 每 次 总 体 11 个 到 100 个 

> B<- le4 4 每 次 放 回 样 本 抽样 1000 个 ， 可 加 到 le5， 计 算 时 间 很 久 ， 但 更 接近 0.368 
> Prob «- NULL ; set.seed(123) 

> for(i in N)(set <- l:i leftout <- 0 

* for(j in 1: B) ( s1 «- sample(set, i, replace-TRUE) 

leftout <- leftout+ (i-length (unique (s1) ) ) /i ) + 计算 没 被 选中 的 样本 数目 
Prob[i-10] «- leftout/B } 

> Prob # 90 次 放 回 抽 样 没 被 选中 的 概率 


十 


中 


[1] 0.3508818 0.3514000 0.3530846 0.3552214 0.3547533 0.3561563 0.3562588 0.3572389 
[9] 0.3587947 0.3592000 0.3580476 0.3597545 0.3590522 0.3596792 0.3605160 0.3602808 
[17] 0.3602037 0.3606786 0.3608345 0.3620367 0.3615387 0.3629906 0.3630152 0.3620559 
[25] 0.3608143 0.3626083 0.3630865 0.3633158 0.3631692 0.3627525 0.3623220 0.3625619 
[33] 0.3638372 0.3632023 0.3637711 0.3640543 0.3643170 0.3644104 0.3647000 0.3640260 
[41] 0.3633118 0.3641192 0.3642962 0.3645926 0.3645545 0.3647268 0.3643298 0.3647724 
[49] 0.3644000 0.3651950 0.3646230 0.3641887 0.3643222 0.3653625 0.3655600 0.3644197 
[57] 0.3652851 0.3643250 0.3648768 0.3648114 0.3653958 0.3657083 0.3651027 0.3653149 
[65] 0.3657000 0.3655921 0.3647883 0.3656423 0.3662835 0.3654375 0.3651259 0.3657073 
[73] 0.3658807 0.3657190 0.3660318 0.3657756 0.3656011 0.3657625 0.3657719 0.3654300 
[81] 0.3658615 0.3655946 0.3664742 0.3661436 0.3655758 0.3661719 0.3660433 0.3662184 
[89] 0.3660525 0.3662850 


/大 话 数据 科学 
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6.2.4 过 采样 


过 采样 ， 又 称 过 抽样 Coversample) 是 当 有 “不 平衡 数据 ”， 数 据 的 因 变量 的 因子 有 的 
是 有 很 多 样本 ， 有 的 样本 数 很 小 。 例 如 ， 检 验 结果 良性 的 人 数 很 多 ， 恶 性 的 人 很 少 ; 回答 
的 人 数 中 不 表达 意见 的 人 比 回答 赞成 或 反对 的 人 多 很 多 。 


ovun.samp 


数据 框 格式 data.frame: 1000 个 观察 值 3 个 变量 


# R 例 6.5 

install.packages ("ROSE") 

library (ROSE) ; library(rpart) ; data (hacide) 

str(hacide.train) # 1000 #7, 3 3ll:cls, xl, x2, HA cls-1 只 有 20 f; 
str(hacide.test) # 250 7, 3 JlJ:cls, x1, x2, HP cis-1 只 有 5 f5 
table(hacide.train$cls) ; table(hacide.test$cls) 

data over <- ovun.sample(cls ~ ., data = hacide.train, method = 
"over",N - 1960)$data 

str(data over) # 过 采样 

table (data over$cls) 

data under <- ovun.sample(cls ~ ., data = hacide.train, method - 
"under", N = 40, seed = 1)$data 

table(data under$cls) # 低 采 样 

data both <- ovun.sample(cls ~ ., data = hacide.train, method = "both", 
p=0.5, N-1000, seed = 1)$data 

table(data both$cls) # 都 采样 

data.rose «- ROSE(cls ~ ., data = hacide.train, seed = 1)$data 
table(data.rose$cls) 4 ROSE 采样 

+ 以 下 是 决策 树 对 原 训练 数据 、 过 采样 、 低 采样 、 都 采样 、ROSE 采 样 的 模型 与 预测 评价 
+ 过 采样 、 低 采样 、 都 采样 、ROSE 采 样 的 模型 评价 都 比 hacide.train 的 auc 好 
treeimb «- rpart(cls ~ ., data = hacide.train) 

pred.treeimb «- predict(treeimb, newdata = hacide.test) 
accuracy.meas (hacide.test$cls, pred.treeimb[,2]) 
roc.curve(hacide.test$cls, pred.treeimb[,2], plotit - F) 
tree.rose «- rpart(cls - ., data - data.rose) 

tree.over «- rpart(cls - ., data - data over) 

tree.under «- rpart(cls ~ ., data = data under) 

tree.both «- rpart(cls ~ ., data = data both) 

pred.rose <- predict(tree.rose, newdata = hacide.test) 

pred.over <- predict(tree.over, newdata = hacide.test) 
pred.under «- predict(tree.under, newdata - hacide.test) 


pred.both «- predict(tree.both, newdata = hacide.test) 


V V V VV V NV NV VV VV ON VV VV FV V+V VV FV VV VY VY YY 


roc.curve (hacide.test$cls, pred.rose[,2]) 


> roc.curve(hacide.test$cls, pred.over[,2]) 
» roc.curve (hacide.test$cls, pred.under[,2]) 


> roc.curve(hacide.test$cls, pred.both[,2]) 


eo 交叉 验证 | 


6.3.1 Kk- 折 交叉 验证 


把 折 交 叉 验 证 (k-fold cross-validation, cv) 是 将 数据 分 成 等 份 ， 每 次 将 取出 大 1 部 分 
做 训练 数据 ， 另 为 一 部 分 做 验证 数据 。 

10- 折 交叉 验证 是 将 数据 随机 抽样 成 为 10 份 ， 将 第 1 份 留 做 验证 数据 V1， 其 他 9 份 做 训练 
数据 T1， 建 立 模型 M1 (参数 P) ， 再 将 V1 用 M1 预测 ， 得 到 预测 值 与 误差 值 ( 分 类 正确 性 或 
回归 误差 MSE1) 。 然 后 第 2 份 留 作 验证 数据 V2， 其 他 9 份 做 训练 数据 T2， 建 立 模型 M2 〈 参 
数 P) ， 得 到 误差 值 MSE2。 这 样 进 行 10 次 验证 ， 将 10 个 MSE 取 均值 ， 就 可 以 得 到 模型 〈 参 
RP) 的 训练 误差 ， 如 图 6-5 所 示 。 再 用 其 他 参数 P” 进 行 10- 折 交叉 验证 ， 比 较 训 练 误差 就 
可 以 选择 较 优 参数 ， 这 就 是 调 参 。R 语 言 包 caret 函 数 train 是 较 被 常用 的 调 参 工具 。 


12625 87 43 76 751 抽样 数据 379 8 23 56 | >Ml<-Im Q~» TD 
>predict (M1, V1) 


[surrdevi [eras aad 82356] > 计算 Vi 的 MSE 


2M2--Im (y~., T2) 


验证 数据 V2 »predict (M2, V2) 


># 计 算 V2 的 MSE， 


验证 数据 V3 >M3<-lm (y~., T3) 


>predict (M3, V3) 


># 计 算 V3 的 MSE， 


>M5<-lm (y~., T5) 
>predict (M5, V5) 
验证 数据 V5 ># 计 算 V5 的 MSE; 


图 6-5 ”不 折 交 又 验 证 


R 语 言 包 函 数 的 方法 method= “cv” 表示 交叉 验证 ， 默 认 值 是 10- 折 交叉 验证 。 
基本 上 R 语 言 的 调 参 函数 tune, tune.svm, tune.rpart 都 已 经 包括 10- 折 交叉 验证 。 


/大 语 数 据 科学 
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天 折 CV 的 均 方 差 ， 


k 
MSE(k - CV) -IXMSE 


E 


6.3.2  Bi—3z NISE 


留 一 交叉 验证 〈leave-one-out cross-validation, LOOCV) 只 保留 一 个 样本 做 验证 数据 ， 
如 图 6-6 所 示 。 


a 
验证 数据 


图 6-6” 留 一 交叉 验证 
留 一 交叉 验证 的 均 方差 ; 


MSE (LOOCV) = ly MSE, 
nia 


数据 框 格式 data.frame: 1000 个 观察 值 ”17 个 变量 


> + R 例 6.6 

library (caret) ; library(C50) ; library (irr) 

credit <- read.csv("C:/R/credit.csv") ;  set.seed(100) 
folds <- createFolds(credit$default, k = 10) # 10 折 
cv results «- lapply(folds, function(x) { 


+ VM vv 


credit train «- credit[-x, ] 

credit test «- credit[x, ] 

credit model <- C5.0 (default ~ ., data = credit train)# 决策 树 5.0 
credit pred <- predict (credit model, credit test) 

credit actual <- credit test$default 

kappa «- kappa2 (data.frame (credit actual, credit pred) ) $value 
return(kappa) )) # kappa 值 


Voto + + + + + 


str(cv_results) 


> mean (unlist (cv_results) ) List of 10 
[1] 0.3272764 


Fold01: num 0.293 
Fold02: num 0.505 
Fold03: num 0.234 
Fold04: num 0.175 
Fold05: num 0.282 
Fold06: num 0.301 
Fold07: num 0.453 
Fold08: num 0.362 
Fold09: num 0.275 
Foldl0: num 0.393 


40 40 40 40 40 40 40 40 40 40 


例如 : 
> fit «-C5.0 (x, y) 


例如 : 


> train Cy ~ ., data, 
method = "C5.0") 


on, 
i 
例如 : 回归 模型 评价 


> predict (fit, newdata) 


测试 数据 


图 6-7 交叉 验证 


机 器 学 习 可 以 总 结 为 学 习 一 个 函数 f， 称 为 学 习 器 将 输入 变量 X 映 射 为 输出 变量 7。 
模型 model = 函数 function (公式 formula， 数 据 data， 参 数 或 超 参 数 ， 方 法 ) 。 

用 了 语言 表示 : Model <- f(y~X, data=(X, y), k, method) 

模型 的 选择 最 主要 是 模型 的 复杂 度 ， 模 型 的 复杂 度 有 以 下 几 种 。 

CD 函数 的 类 型 : 回归 、 近 邻 、 决 策 树 、 支 持 向 量 机 、 神 经 网 络 、 深 度 学 习 等 。 
OD 算法 容易 解释 的 能 力 : 黑箱 算法 、 白 箱 算法 或 玻璃 箱 算法 〈 透 明 ) 。 

G) 变量 的 数目 是 否 增加 或 减少 : 正则 化 、 剪 枝 。 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


(4) 参数 学 习 与 非 参数 学 习 ， 超 参数 的 选择 : 平滑 程度 。 
(5) 训练 与 验证 的 努力 : 认真 学 习 与 懒惰 学 习 。 
O 偏差 与 方差 的 考虑 : 过 拟 合 或 欠 拟 合 。 


6.4.1 ”参数 和 非 参数 学 习 


机 器 学 习 分 为 参数 学 习 与 非 参 数学 习 。 

@ 参数 学 习 ( parametric machine learning ) 

统计 学 的 参数 统计 是 : 假定 估计 和 检验 的 变量 是 独立 正 态 〈 高 斯 ) 分 布 而 且 有 参数 。 

机 器 学 习 的 参数 学 习 要 求 变量 的 假定 条 件 和 模型 参数 。 算 法 包括 两 部 分 : OFA 
标 函 数 的 形式 ，@ 从 训练 数据 中 学 习 目标 函数 的 系数 。 参 数学 习 模型 可 以 不 需要 大 量 的 
数据 。 

参数 学 习 器 包括 以 下 几 个 。 

(1) 逻辑 回归 Logistic Regression: 模型 有 回归 系数 〈 参 数 ) 。 

(2) 线性 判别 分 析 Linear Discriminant Analysis: 假定 高 斯 分 布 。 

G) 朴素 贝 叶 斯 : 自 变量 〈 特 征 ) 是 独立 的 连续 变量 假定 高 斯 分 布 且 有 参数 
(估计 )。 

@ 非 参数 学 习 (nonparametric machine learning ) 

非 参数 学 习 对 目标 函数 不 作 过 多 的 假定 的 算法 ， 称 为 非 参数 机 器 学 习 算法 。 通 过 不 作 
假设 〈 如 独立 正 态 ) ， 算 法 可 以 自由 地 从 训练 数据 中 学 习 任 意 形式 的 函数 。 如 果 拥 有 许多 
数据 而 先 验 知识 很 少时 ， 非 参数 学 习 通常 很 有 有 用， 此 时 不 需要 关注 参数 的 选取 。 

非 参数 学 习 器 在 构造 目标 函数 的 过 程 中 ， 对 训练 数据 做 最 好 的 拟 合 ， 同 时 维持 一 些 泛 
化 到 未 知 数据 的 能 力 。 同 样 的 ， 它 们 可 以 拟 合 各 自 形式 的 函数 。 

非 参 数学 习 器 的 一 个 很 好 的 例子 是 近邻 算法 ， 其 目标 是 基于 k 个 最 相近 的 模式 对 新 的 
数据 做 预测 。 这 种 方法 对 于 目标 函数 〈 输 出 变量 ) 的 形式 ， 不 作 任 何 假设 。 

非 参数 学 习 器 的 例子 有 以 下 几 个 。 

(1) 大 近邻 法 (k-Nearest Neighbors) : 大 是 超 参 数 。 

(2) 决策 树 (Decision Trees) : CART 和 C4.5。 

(3) 支持 向 量 机 (Support Vector Machines) 。 

参数 学 习 与 非 参 数学 习 ， 简 单 的 说 ， 参 数学 习 是 固定 的 O 参数 (参数 数目 不 因 样 本 量 
而 变动 ) ， 非 参数 学 习 是 变动 的 P 参数 。 

有 关 参 数学 习 器 与 非 参数 学 习 器 更 多 说 明 ， 详 见 第 8.1.3 节 。 


模型 选择 与 评价 


6.4.2 ”偏差 和 方差 


学 习 器 模型 预测 结果 有 偏差 和 方差 。 

€ 偏差 (bias) : 预测 结果 与 真实 结果 的 误差 ， 模 型 选择 的 误差 。 偏 差 越 小 表示 模型 越 
是 过 拟 合 ， 模 型 越 复杂 。 偏 差 越 大 ， 模 型 越 简单 。 增 加 训练 数据 ， 也 不 能 降低 偏差 。 

€ 方差 (variance) : 对 不 同 的 训练 集 产生 的 方差 ， 所谓 泛 化 误差 。 模 型 越 复 杂 ， 方 
差 越 大 。 因 为 模型 钻 得 越 深 ， 泛 化 能 力 越 差 。 

偏差 与 方差 是 模型 选择 的 一 种 交换 ， 降 低 偏差 就 增加 方差 。 交 叉 验 证 可 以 处 理 偏差 与 

方差 的 交换 。 在 支持 向 量 机 理论 ， 偏 差 称 为 经 验 风 险 ， 方 差 称 为 置信 风险 。 

定义 : 数据 (人 ,了 )e R”? x R”， 丰 是 自 变 量 ，7 了 是 因 变 量 、 目 标 变量 、 响 应 变量 。 

f(x)=E(Y|X=x)=( 了 =x) 的 目标 值 的 期 望 值 

了 (x)= 模 型 /对 (了 =x) 的 预测 值 

E| F(x) |= Bett pit (x =x) 预测 值 的 期 望 值 

(A6) E[7 (9) ]) - bias" (7 (x) = (Beto aae" 

E(P- | rar(?69) trente 

MSE( f (x). 7 (x)) = 预测 均 方差 mean square error- (偏差 ) + 方差 -可 降低 的 误差 

EPE (Y : F(x)) = 期 望 预测 误差 Expected prediction error 

Var(Y)- 6? = 了 的 方差 ， 噪 声 (noise) = 不 能 降低 的 误差 


user P 0)-(ren- [769] EE] 
zpe(r.762)-(r60- r[76]) +£|(7)-£[769]) |+ e 


(偏差 方差 
可 降低 的 误差 

预测 均 方差 MSE 是 可 以 用 模型 降低 的 误差 ， 例 如 交叉 验证 、 超 参数 的 选择 、 集 成 。 
但 是 偏差 和 方差 通常 是 不 能 同时 降低 的 。 降 低 了 偏差 ， 模 型 的 复杂 度 增 加 ， 方 差 也 增 大 。 
降低 了 方差 ， 模 型 的 复杂 度 降低 ， 偏 差 就 增加 。 这 就 是 偏差 一 方差 的 取舍 Cbias-variance 
tradeoff) 。 

O 高 偏差 学 习 器 

CODO 参数 学 习 器 : 模型 简单 ， 自 变量 太 少 。 

(2) 非 参数 学 习 器 : 模型 平滑 ， 层 级 太 少 。 

人 @ 高 方差 学 习 器 

(OD 参数 学 习 器 : BAZ ARE. OBR 〈 不 是 超 参 数 ) KE. 


/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


OD 非 参数 学 习 器 : 模型 过 多 波浪 摆动 ， 决 策 树 太 多 树枝 。 


6.4.8 ”模型 的 复杂 度 


模型 的 复杂 度 和 训练 误差 〈 偏 差 ) 与 测试 误差 (方差 ) 有关， 如 图 6-8、 图 6-9 所 示 。 
模型 复杂 度 越 高 ， 训 练 误差 〈 偏 差 ) 越 小 ， 测 试 误差 (方差 ) 越 大 。 模 型 复杂 度 越 低 ， 训 
练 误 差 〈 偏 差 ) 越 大 ， 测 试 误差 〈 方 差 ) 越 小 。 


aee A wig ô 


evbetescececess 


: 模型 
7 训练 数据 @ 测试 /'| 训练 数据 @ 
测试 误差 4 测试 /， 4 
A 测试 数据 A 误差 A 测试 数据 A 


«BEER 


自 变 量 工 模型 复杂 度 
图 6-9 ”偏差 与 方差 
模型 选择 的 复杂 度 与 误差 如 图 6-10 所 示 。 


#02 EE 


验证 误差 ， 方 差 
测试 误差 


ncs ss ed 


训练 误差 ， 偏 差 


欠 拟 合 过 拟 合 
低 模型 复杂 度 高 
模型 | 减 变量 ”回归 ”近邻 法 ” 贝 叶 斯 决策 树 ”集成 支持 向 量 机 神经 网 络 
参数 | 压缩 法 多 元 BR Wh 超 参数 Ki 核 函 数 阶层 
模型 易 解释 模型 难 解释 


图 6-10 模型 选择 的 复杂 度 与 误差 


6.4.4 正则 化 


正则 化 〈regularization) 又 称 正 规 化 是 一 种 压缩 变量 的 方法 ， 在 目标 函数 加 上 一 个 损失 
成 本 函数 doss function) 和 参数 4 。 控 制 参数 4 和 成 本 函数 来 惩罚 模型 的 复杂 性 ， 避 免 模 
型 的 过 拟 合 。 第 7 章 回归 分 析 的 正则 化 压缩 变量 的 方法 有 Lasso 和 Ridge 回归 。 


6.4.5 ”认真 学 习 和 懒惰 学 习 


贝 叶 斯 分 类 、 决 策 树 、 支 持 向 量 机 、 类 神经 网 络 等 监督 学 习 ， 称 为 热切 或 认真 学 习 器 
(eager learner) ， 因 为 这 些 学 习 器 是 认真 学 习 的 好 榜样 。 

与 认真 学 习 器 相反 的 当然 是 懒惰 学 习 器 (lazy learner) ， 懒 惰 学 习 是 没有 利用 训练 数据 
集 来 创建 模型 ， 而 是 测试 集 和 训练 集 共同 建 模 和 预测 。 例 如 第 8 章 的 k 最 近邻 法 。 但 是 并 非 
懒惰 学 习 去 就 是 不 好 ， 有 时 近邻 法 也 有 很 好 的 预测 结果 。 


/状语 数据 科学 
7 KEUESHESESISCHE (基于 R 语 言 ) 


eo 模型 评价 | 


模型 评价 是 比较 两 个 以 上 模型 的 优 劣 ， 模 型 有 分 类 模型 和 回归 模型 。 分 类 模型 的 评价 
有 二 元 分 类 器 和 多 元 (标签 ) 分 类 器 。 回 归 模 型 的 评价 是 连续 型 目标 数值 。 


6.5.1 二 元 0-1 分 类 器 的 评价 一 一 混淆 和 矩阵 


混淆 矩阵 〈confusion matrix) 是 分 类 学 习 其 目标 变量 为 0-1 二 分 类 变量 的 评价 方法 。 
二 分 类 有 正 类 〈 真 ) 、 负 类 ( 假 ) 。 另 外 ， 有 实际 、 预 测 两 个 数值 。 
定义 下 列 符号 及 名 词 。 

(1) P= 实际 值 为 正 类 的 个 数 。 

(2) N= 实际 值 为 负 类 的 个 数 。 

(3) P* = 预测 值 为 正 类 的 个 数 。 

(4) N* = 预测 值 为 负 类 的 个 数 。 

(5) SN= 训练 (或 验证 ) 数据 〈 或 验证 数据 ) 的 总 个 数 。 

(6) 真正 类 (True positive, TP) ， 正 确 肯定 ;预测 为 真 ， 实 际 为 真 
TP- 实际 值 为 正 类 ， 预 测 值 为 正 类 的 个 数 。 

(7) 假 正 类 (False positive, FP) ， 错 误 肯 定 : 预测 为 真 ， 实 际 为 假 
FP= 实际 值 为 负 类 ， 预 测 值 为 正 类 的 个 数 。 

(8) 真 负 类 (True negative, TN) , IEMA: 预测 为 假 ， 实 际 为 假 
TN = 实际 值 为 负 类 ， 预 测 值 为 负 类 的 个 数 。 

(9) 假 负 类 (False negative, FN) ， 错 误 否 定 : 预测 为 假 ， 实 际 为 真 
FN= 实际 值 为 正 类 ， 预 测 值 为 负 类 的 个 数 正确 率 ACC。 
混淆 矩阵 的 评价 指标 : 

a) 正确 率 、 精 度 (accuracy) 

ACC =(TP+TN) SN=(TP+TN)/(P+N) 
(2) AEX (recall) 、 灵 敏 度 (sensitivity) 、 命 中 率 Chit rate) 、 真 正 类 率 (true 
positive rate) 
查 全 率 TPR= TP / P= 1- 第 二 类 错误 

(3) RE (specificity) 、 真 负 类 率 (true negative rate) 

7TNR=ITN/N=1- 第 一 类 错误 =1- FPR 

(4) 精确 度 (precision) 、 正 类 预测 值 (positive predict value) 

查 准 率 PPV = PR- TP | P* 


*9s EP 


C5) 负 类 预测 值 (negative predict value) = TN / N* 
(6) 平衡 正确 率 (balanced accuracy) = (特异 度 + 灵敏 度 ) /2 


表 6-2 ”目标 变量 为 0-1 的 混淆 矩 阵 
实际 ( 目标 ) 值 
UNE 
1(+ ) EX 0( 二 ) 负 类 m 


FP 假 正 类 TP/P* 精 确 度 ， 查 准 率 
第 一 类 错误 (precision) 正 类 预测 值 
/N* 负 类 预测 值 
SN = TP+FN N/SN 无 信息 比率 
+FP+IN No Information Rate 
评价 准则 正确 率 (accuracy) 
F 评 分 召回 率 (recall) i ACC- (TP+IN) /SN 


Fl =2TP/ 查 全 率 ， 灵 敏 度 (specificity) ERR= (FP+FN) /SN 
(2TP+FP+FN) sensitivity) FPR - FP/N 错误 率 (error rate) 


实际 为 正 实际 为 负 


P* 
预测 为 正 预测 为 负 


(a) 混淆 矩阵 (b) 正确 率 (c) ABI (D 精确 度 CO 特异 度 
CEA) EWR) 


图 6-11 二 元 标签 分 类 器 评价 指标 


KAA) 


CD 流行 〈 盛 行 ) Æ (prevalence) = P/ SN 

(8) 检测 率 (detection rate) = TP / SN 

(9) 检测 流行 率 (detection prevalence) = P* / SN 

以 下 指标 是 越 小 越 好 ， 无 信息 比率 越 高 可 以 说 是 不 平衡 数据 集 。 

(10) 无 信息 比率 (No Information Rate) 

NIR = max(P/ SN, N/SN} 
正确 率 4CC 应 该 大 于 NIR. Xt NIR > 4CC， 则 全 部 预测 一 个 分 类 ， 会 比 这 个 正确 率 
还 高 。 

P-Value L4CC> NIR] 是 正确 率 4CC 大 于 NIR 的 p- 值 。 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


P-Value [4CC> NIR] 越 小 ， 正 确 率 4CC 越 好 。 
(11) 错误 率 Cerror rate) 


ERR =(FP+EN) | SN = 1 -正确 率 
(12) 第 一 类 错误 率 、 假 正 类 率 (false positive rate) 


FPR = 1- 特 异 度 = FP/N=P AWA EX | KRANK) 
(13) 第 二 类 错误 率 、 假 负 类 率 (false negative rate) 


FNR = 1- 召 回 率 =FN/P=P (预测 为 负 类 | 实际 为 正 类 ) 
[以 上 的 评价 测量 找 一 个 综合 指标 F 值 (分 数 ) CE score) ] 


(14) FË (分 数 ) = 召回 率 和 精确 度 的 调和 平均 
2 _2x 召 回 率 x 精 确 度 27P 


H | 2TP 

_ 1/ 召回 率 +1/ 精 确 度 ”召回 率 + 精确 度 ”27TP+FP+FN  SN4TP-IN 
" _ (1+ A?) x LE x IE (1+ 6?) x7P 

PB x AIL + HVE (1+ 6") x TP + f x FP FN 


(15) 五 是 召回 率 和 精确 度 的 加 权 调 和 平均 ，B 是 对 查 全 率 或 查 准 率 的 不 同 偏好 。 
五 = 下 ， 忆 = 召回 率 是 精确 度 的 两 倍 权 重 ， 五 ;= 精确 度 是 召回 率 的 两 倍 权重 。 
(16) Kappa 统计 值 (kappa statistic) 测度 二 分 类 的 同意 度 〈 正 确 率 ) 


Pa — Pe 
1- Pe 
式 中 ，Pa 为 模型 预测 的 正确 率 (accuracy) =(TP+TN)/ SN; 


Pe 为 随机 预测 的 正确 性 = [(P X P*)+(N X N*)] /(SN)?。 
车 三 0.2， 则 同意 度 很 差 ， 若 0.21 志 k 二 0.4， 则 同意 度 尚 可 ; 若 0.41 <k<0.6, WAR 


度 中 等 ， 若 0.61<k<0.8, WWE; 4 081<k<1, WARE RE. Hk 0， 则 等 于 随 
机 猜测 。 


(17) Matthews 相 关系 数 CMCC) 


k = Kappa = 


MG TP x IN - FP x FN 
(TP FP)(TP + FN) (TN + FP)(TN + FN) 


-1<MCC <+1 


MCC=+1 是 完全 正确 预测 ，MCC= 0 是 随机 预测 ; MCC= -1 是 完全 错误 预测 。 


6.5.2 混淆 矩阵 的 举例 说 明 
假定 有 1000 个 病人 训练 集 实例 ) ， 其 中 有 5 个 病人 “实际 ”是 癌症 恶性 肿瘤 〈 正 


K) 。 现 在 要 检验 “预测 ”病人 的 癌症 是 否 是 恶性 肿瘤 〈 正 类 ) 。 我 们 有 两 个 算法 ， 算 法 
A 是 将 所 有 病人 都 预测 为 良性 肿瘤 《〈 正 类 ) ， 这 是 一 个 特例 ， 基 本 上 不 是 一 个 模型 算法 。 


算法 B 是 一 个 分 类 器 《例如 近邻 法 、 决 策 树 或 逻辑 回归 ) ， 其 混淆 矩阵 如 表 6-3 所 示 。 
表 6-3 ”混淆 矩阵 的 查 准 率 、 查 全 率 与 正确 率 


算法 A 混淆 矩阵 


=a 
| + | % | 5 [| o [| feos | 
px s 


查 全 率 .985 


查 准 率 为 所 有 成 功 预 测 有 恶性 肿瘤 的 病人 中 ， 实 际 上 有 恶性 肿瘤 的 病人 的 百分比 。 

查 全 率 为 所 有 实际 有 恶性 肿瘤 的 病人 中 ， 成 功 预 测 有 恶性 肿瘤 的 病人 的 百分比 。 

表 6-3 (a) 、 O) 是 一 个 不 平衡 数据 集 (imbalanced data) ， 无 信息 比率 为 0.995， 实 
际 正 类 的 数据 太 少 ， 无 信息 比率 为 0.995。 算 法 A 的 正确 率 为 0.995， 但 这 是 一 个 没有 学 习 、 
没有 意义 的 算法 ， 查 准 率 和 查 全 率 都 是 0. 

4663 (O 、(d) 的 混淆 矩阵 ， 查 准 率 和 查 全 率 都 很 高 ， 这 也 是 没有 意义 的 ， 因 为 应 
该 将 要 检测 的 分 类 恶性 肿瘤 ) ， 当 作 “ 正 类 ”。 


/大 语 数 据 科 学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


如 果 希 望 只 在 非常 确信 的 情况 下 预测 为 真 〈 肿 瘤 为 恶性 ) ， 即 希望 更 高 的 查 准 率 ， 可 
以 使 用 比 0.5 更 大 的 阔 值 ， 如 0.7、0.9。 这 样 做 会 减少 错误 预测 病人 为 恶性 肿瘤 的 情况 ， 同 
时 却 会 增加 未 能 成 功 预 测 肿瘤 为 恶性 的 情况 。 

如 果 希 望 提高 查 全 率 ， 尽 可 能 地 让 所 有 有 可 能 是 恶性 肿瘤 的 病人 都 得 到 进一步 的 检 
查 、 诊 断 ， 可 以 使 用 比 0.5 更 小 的 阔 值 ， 如 0.3。 


6.5.3 ”二 元 分 类 器 的 成 本 计算 


成 本 不 仅 要 猜 得 准 、 猜 得 全 ， 还 需要 考虑 ， 如 果 猜 错 了 ， 会 因此 付出 一 定 代价 ， 所 以 
就 有 了 代价 敏感 错误 率 ， 此 处 FEN 和 FP 都 对 应 一 定 的 cost。 例 题 说 明 如 表 6-4 所 示 。 
表 6-4 ”二 元 分 类 器 的 成 本 计算 


混淆 矩阵 C2 
[- —-- 
mm |  - — | 
| = | 


模型 分 类 器 C1 的 正确 率 4CC = 0.8， 总 成 本 = 3910. 
模型 分 类 器 C2 的 正确 率 4CC = 0.9， 总 成 本 = 4255. 
所 以 模型 分 类 器 C1 优 于 模型 分 类 器 C2。 


6.5.4 ”二 元 分 类 器 例题 数据 RR 语言 


【 R 例 6.7 】 二 分 nMatrix.csv, onfusionMatrix 


数据 框 格式 data.frame: 1390 个 观察 值 4 个 变量 


> 4 R 例 6.7 

> CM <- read.csv ("C:/R/ConfusionMatrix.csv") 
» library (gmodels) 

» str(CM) 


'data.frame': 1390 obs. of 4 variables: 


$ Actual : Factor w/ 2 levels "No","Yes": 1111211112... 
$ Predict : Factor w/ 2 levels "No","Yes": 1111211112... 
$ prob Yes: num 0 0 0.00016 0.00004 1 0.0002 0.00325 0.00001 0.00001 1 ... 
$ prob No : num 11110... 
» head(CM) 


Actual Predict prob Yes prob No 


1 No No 0.00000 1.00000 
2 No No 0.00000 1.00000 
3 No No 0.00016 0.99984 
4 No No 0.00004 0.99996 
5 Yes Yes 1.00000 0.00000 
6 No No 0.00020 0.99980 
> CrossTable(CM$Predict, CM$Actual) 


Cell Contents 
| ee stad, 
! NI 
| Chi-square contribution | 
L N / Row Total | 
L N / Col Total | 
L N / Table Total | 


Total Observations in Table: 1390 


| CM$Actual 
CM$Predict | No | Yes | Row Total | 
------------- l----------- l----------- 1----------- 1 
No | 1203 | 31 | 1234 | 
I 16.128 | 106.377 | 1 
1 0.975 | 0.025 | 0.888 | 
1 0.997 | 0.169 | 1 
I 0.865 | 0.022 | 1 
——] m [MM M 
Yes | 41 152 | 156 | 


> library (caret) 
> confusionMatrix(CM$Predict, CM$Actual, positive-"Yes") 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Confusion Matrix and Statistics 


Reference 
Prediction No Yes 
No 1203 31 
Yes 4 152 


Accuracy : 0.9748 
95% CI : (0.9652, 0.9824) 

No Information Rate : 0.8683 

P-Value [Acc » NIR] : « 2.2e-16 
Kappa : 0.8825 

Mcnemar's Test P-Value : 1.109e-05 
Sensitivity : 0.8306 
Specificity : 0.9967 
Pos Pred Value : 0.9744 
Neg Pred Value : 0.9749 
Prevalence : 0.1317 
Detection Rate : 0.1094 
Detection Prevalence : 0.1122 
Balanced Accuracy : 0.9136 


'Positive' Class : Yes 


truth 因子 格式 factor: 100 个 值 ”70 个 一 30 个 十 
pred 因子 格式 factor: 58 个 一 ”12 个 十 4 个 一 26 个 十 


* 例 6.8 
library (caret) 
lvs <- c("—", "4") 


truth <- factor(rep(lvs, times = c(70,30)), levels = rev(lvs) ) 


VV VM 


[M om a Be a a a i ee is si a a 
[94] 十 二 十 十 十 十 十 

Levels: 十 一 

> truth # 真实 值 70 个 一 ，30 个 十 

> pred «- factor(c(rep(lvs, times = c(58,12)), rep(lvs, times = 


+ c(4, 26) ) ) , levels = rev(1vs) ) 


> pred # 预测 值 58 ^—, 12 个 十 ; 4 7—, 26 N+ 
> tab «- table(pred, truth) 

» confusionMatrix (tab) 

> confusionMatrix(pred, truth) # 结果 同上 


Confusion Matrix and Statistics 


truth 
pred 十 一 
十 26 12 
— 4 58 
Accuracy : 0. 
95% CI : (0 
No Information Rate : 0. 
P-Value [Acc > NIR] : 0. 
Kappa : 0. 
Mcnemar's Test P-Value : 0. 
Sensitivity : 0. 
Specificity : 0. 
Pos Pred Value : 0. 
Neg Pred Value : 0. 
Prevalence : 0. 
Detection Rate : 0. 
Detection Prevalence : 0. 
Balanced Accuracy : 0. 
'Positive' Class : + 


6.5.5 ”多 标签 分 类 器 的 评价 


分 类 学 习 的 目标 变量 类 别 为 两 个 以 上 ， 其 混淆 矩阵 如 表 6-5 所 示 。 
表 6-5 “多 标签 分 类 器 的 混淆 和 矩阵 


84 
.7532, 
7 
0009689 


646 
0801183 


x P, l 
灵敏 度 | SE, TP/P, 
EM: 


TP, - X, = Fi 类 别 实际 值 被 正确 预测 的 数目 。 


EN, =X pa X, = 第 i 类 别 实际 值 被 错误 预测 的 数目 : FN, = XY, + Xs +X 
FP =} ja Xp = 第 i 类 别 预测 值 错误 预测 的 数目 ，FB =X + Xyt+Xy 


精确 度 
PR= TPJP*, 


^ PR,-TPJP*, 
* PR-TPJP*, 


/大 话 数据 科学 


也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


TN, = SN - TP. — FN, — FP, 


TN, =X, +X, +X, +X; +X; tX +Xy *XS +Xy 
IN, fé X, KB i TMB i9, AIR JEU X HOA. 
COD 正确 率 ; 


Acc = Za 
SN 
(2) 第 ;类 别 的 召回 率 ， 灵 人 敏 度 : 


sg -X= TP _ TP, 


$ > » SE- = 
Dae e E TB Xs Xs it Xa 


G) 第 i 类 的 精确 度 : 


PR=2 Th TE, pp = Th 
Data E TE Xy * Xy Xy 


(4) 第 i 类 的 特异 度 : 


> io phe A 
; B+B+h 
C5) 第 i 类 的 F 值 : 


pi = 2% SE x PR, 


pi 2%5E x PR, 
SE «PR, ` SE, + PR, 


(6) Kappa 统 计 值 (kappa statistic) 测度 分 类 的 同意 度 〈 正 确 率 ) : 


k = Kappa = Pa — Pe 


1- Pe 
式 中 ;Pa 为 模型 预测 的 正确 率 Caccuracy) - ACC - > TB. /SN » 


Pe 为 随机 预测 的 正确 性 = 了 "(PxP')/(SN?) 


=(P xP} +P,xP; +RBxP +PxP)/(SN’) 
Hk<02, WARERE; 40.21<k<0.4, WAREMA; #04106, WARE 
中 等 ， 若 0.61<k<0.8, WARR: dy 081<k<1, MARRE. dyk- 0， 则 等 于 随机 
猜测 。 


(7) BFH (macro average) 召回 率 RE „ macroRec: 


Pa 


RE -l*mng, RE _ PE, * RE, + RE, + RE, 
- ; ma 4 
(8) 宏 平 均 精 确 度 PR,,,» macroPrec: 


lg PR + PR, + PR, + PR 
PR = 2 PR, M oum ETE 
i=l 


4 
(9) 宏 平 均 五 值 (不 是 RE,, 和 PR, ,的 调和 平均 ) ，macro F: 


macro FE =F „= 
E ma 


p 1 2 3 4 
ya rd EAF F 
Pa 


i 4 


6.5.6 ”多 标签 分 类 器 评价 R 语 


s0: EE 
(100 微 平均 (micro average) 召回 率 RE: 
Y" TP 
il 


OELDOYLHN 


mi 


(OD 微 平均 精确 度 PR, 


? TB. 
PR = 20 Ld 


"Yn. yn 
(12). FH F {E F,» microRec: 


- 25 TE _ 2 RE, x PR。 
Pahaa, Ria t+ PR 

若 表 6-5 的 行 总 和 等 于 列 总 和 了 EN, = 7 FP, 

WW: $7 TP +0? FN -TP+ FP 

RE, = PR, =micro_F, = Fp 


micro FH =F, 


Tl 


.9] it Kappa 数 Kappa() 
> # R 例 6.9 $'ttl agreement 
; ] [1] 71.43 
» install.packages ("asbio") 
> library (asbio) Suser accuracy 
> reference«- hi low med 


100.0 33.3 100.0 
+ c("hi", "low", "low", "hi", "low", "med", "med") 


> classl<- S$producer accuracy 


+ c("hi","hi","low", "hi", "med", "med", "med") hi low med 
66.7 100.0 66.7 
> table (class1, reference) 


reference Skhat 
classi hi low med [1] 58.8 
hi 2 1 0 
low 0 1 0 
k med 0 1 2 


> Kappa (class1, reference) 


计算 Kappa 统计 值 (kappa statistic) 
Pa — Pe 
1- Pe 
Pa= Y TP /SN =5/7=0.7143 


k= kappa = 


Pe= Y (BxP')/(SN*)=(6+3+6)/49 =0.5882 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实 战 (基于 RR 语 言 ) 


观察 值 ”5 个 变量 


数据 框 格式 data frame: 150 个 
> # R 例 6.10 
> install.packages ("DMwR") ; library (DMwR) 
install.packages ("performanceEstimation") 
library (performanceEstimation) ; library (caret) 
data (iris) ; set.seed = (100) # 设 定 随机 种 子 ， 下 次 计算 结果 会 一 样 
idx <- sample(1:nrow(iris),100) 


» 
» 
> 
> 
> train <- iris[idx,] ; test <- iris[-idx,] 
> tree <- rpartXse(Species ~ .,train) 

> preds <- predict (tree, test,type=’ class’ ) 
> (table <- table(preds, test$Species) ) 

> (conm <- confusionMatrix (table) ) 

> 


classificationMetrics (test$Species, preds) 


Confusion Matrix and Statistics 


Reference 
Prediction setosa versicolor virginica 
setosa 13 20 17 
versicolor 16 16 18 
virginica 21 14 15 


Overall Statistics 


Accuracy : 0.2933 

95% CI : (0.2219, 0.3731) 
No Information Rate : 0.3333 
P-Value [Acc » NIR] : 0.8705 
Kappa : -0.06 
Mcnemar's Test P-Value : 0.7136 


Statistics by Class: 


Class: setosa Class: versicolor Class: virginica 


Sensitivity 0.26000 0.3200 0.3000 
Specificity 0.63000 0.6600 0.6500 
Pos Pred Value 0.26000 0.3200 0.3000 
Neg Pred Value 0.63000 0.6600 0.6500 
Prevalence 0.33333 0.3333 0.3333 
Detection Rate 0.08667 0.1067 0.1000 
Detection Prevalence 0.33333 0.3333 0.3333 


Balanced Accuracy 0.44500 0.4900 0.4750 


*9s EP 


> 4 R 例 6.11 
> library (caret) 
» levels «- c("A", "B", "C") 
> actual <- factor (c("A", "A", "A", "C", "B", "C", "A", "pg", MBM nen) ) 
r D D r , , , D , 
> pred <- factor (c("A","A", "C", "B", "A", "C", "A", ncn, MBM HCH) ) 
r r r L r , D , r 
> actual 
[i] AAACBCABBC 
Levels: ABC 
> pred 
[1] AACBACACBC 
Levels: AB C 
» table «- table(pred, actual) 
» conm «- confusionMatrix(table) ;conm 
» classificationMetrics (pred, actual) 


acc err microF macroF macroRec macroPrec 
0.6000000 0.4000000 0.6000000 0.5738095 0.5833333 0.5833333 


6.5.7 ”交叉 验证 分 类 的 评价 


大 - 折 交 叉 验 证 ，/j 组 测试 数据 计算 大 个 混淆 矩阵 。 
7P, 为 第 i 折 测 试 数据 的 真正 类 7P; 

FP 为 第 i 折 测 试 数据 的 假 正 类 FP; 

FN 为 第 i 折 测 试 数据 的 真正 类 FN。 

k- 折 交 叉 验证 的 微 平均 五 值 : 


QAAE 
micro_F, = Fpi == e k 
2», TE + Ba FE, * 255 FN, 
k- 折 交 叉 验 证 的 宏 平均 下 值 : 
k 
macro K-E,,- D - 
k A 2TB + FB + FN, 


6.5.8 ”分 类 学 习 的 ROC 曲 线 


ROC 曲 线 全 名 “接收 者 操作 特征 曲线 ” (Receiver Operation Characteristic, ROC) 是 
由 “二 战 ” 中 的 电子 工程 师 和 雷达 工程 师 发 明 的 ， 用 来 侦 测 战场 上 的 敌 军 载 具 ( 飞 机 、 船 
舰 ) ， 就 是 信号 检测 理论 。 之 后 很 快 就 被 引入 了 心理 学 来 进行 信号 的 知觉 检测 。 数 十 年 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


来 ，ROC 分 析 被 用 于 医学 、 无 线 电 、 生 物 学 、 犯 罪 心理 学 领域 中 ， 而 且 最 近 在 机 器 学 习 和 
数据 挖掘 领域 也 得 到 了 很 好 的 发 展 。 

Q 统计 学 的 操作 特征 曲线 OC 曲线 

统计 学 假设 检验 的 第 一 类 错误 a 和 第 二 类 错误 B ， 两 者 之 间 是 负 相关 ， 降 低 a 会 增 
m8. 

统计 学 假设 检验 的 作业 特性 曲线 或 称 操作 特征 曲线 Coperating characteristic curve, OC 
曲线 ) 是 在 各 种 不 同 参数 值 之 下 ， 接 受 H 的 概率 。 

作业 特性 曲线 请 见 《 大 话 统计 学 》 第 10.2 节 。 

@ 分 类 器 的 ROC 曲 线 

分 类 器 的 第 一 类 错误 FPR 和 第 二 类 错误 FNR， 两 者 之 间 是 负 相 关 ， 降 低 FPR 会 增加 
FNR。 用 类 似 统计 学 假设 检验 。 

Hy: 目标 值 为 负 类 ; H: 目标 值 为 正 类 

第 一 类 错误 FPR=P (预测 为 正 类 | 实际 为 负 类 ) 

第 二 类 错误 FNR = 了 P (预测 为 负 类 | 实际 为 正 类 ) 

ROC 曲 线 就 是 召回 率 与 特异 度 以 统计 学 的 假设 检验 的 观念 来 解释 。 

© ROC 曲 线 的 计算 

ROC 曲 线 的 横 坐 标 是 假 正 类 率 ， 即 第 一 类 错误 FPR， 纵 坐标 是 召回 率 ， 即 第 二 类 错误 
FENR。 将 同一 模型 每 个 阔 值 的 CFPR，7PR) 坐标 都 画 在 ROC 空 间 里 ， 就 成 为 这 个 模型 的 
ROC 曲 线 。 

如 表 6-6 所 示 ， 将 数据 的 预测 值 的 概率 由 大 到 小 排序 ， 从 图 6-11 的 左下 角 开始 ， 实 际 
分 类 2Y， 折 线 往 上 两 格 (TPR+2) ; 实际 分 类 IN， 折 线 往 右 一 格 (FPR+1) ; 实际 分 
类 2Y， 折 线 再 往 上 两 格 (TPR+2) ; 实际 分 类 2N， 折 线 往 右 两 格 CFPR+2) ; 实际 分 
类 3Y， 折 线 再 往 上 三 格 (TPR+3) 。 在 不 同 的 阔 值 ， 判 定 实例 分 类 的 概率 ， 可 以 得 到 
CFPR, TPR) 即 为 ROC 曲 线 。 如 图 6-12 所 示 。 

表 6-6 ”计算 ROC 曲 线 的 数据 


i [ow Y 
2 0.95 NS 
3 | 0.94 N 
4 0.94 | Y 
6 0.92 N 
7 0.91 [ N 
8 0.88 Y 


z0: [EE 


曲线 下 面积 
AUC 


02 04 06 08 1.0 
FPR=1- 特 异 度 =1-TNR 


图 6-11 ROC 曲 线 


ROC 曲 线 越 往 左 上 角 越 好 ， 预 测 正 确 率 越 高 。ROC 曲线 的 一 半 对 角 线 是 随机 猜测 ， 会 
有 一 半 猜 对 一 半 猜 错 。ROC 曲 线 完全 在 左上 角 ， 分 类 器 是 完美 的 预测 。 

如 果 用 交叉 验证 ， 取 重复 抽样 的 平均 值 ， 则 ROC 曲 线 会 是 平滑 的 曲线 。 

ROC 曲 线 可 以 用 来 评价 两 个 分 类 器 的 优 和 劣 。 如 果 C1 学 习 器 的 ROC 曲 线 包 住 C2 学 习 器 的 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


ROC 曲 线 ， 则 C1 学 习 嚣 优 于 C2 学 习 器 ， 如 图 6-12 所 示 。 


02 04 06 0.8 
FPR=1- 特 异 度 =1-TNR 


1.0 


图 6-12 评价 三 个 分 类 器 


© AUC 

AUC (Area under the Curve of ROC) 是 ROC 曲 线 下 方 的 面积 。 

AUC 值 越 大 的 分 类 器 ， 正 确 率 越 高 。 依 据 AUC 判 断 分 类 器 〈 预 测 模型 ) 优 劣 的 标准 ; 

AUC = 1， 是 完美 分 类 器 ， 采 用 这 个 预测 模型 时 ， 存 在 至 少 一 个 阀 值 能 得 出 完美 预 
测 。 绝 大 多 数 预测 的 场合 ， 不 存在 完美 分 类 器 。 

0.5 < AUC < 1， 优 于 随机 猜测 。 这 个 分 类 器 〈 模 型 ) 妥善 设 定 阔 值 的 话 ， 能 有 预测 
价值 。 
AUC = 0.5， 跟 随机 猜测 一 样 ， 模 型 没有 预测 价值 。 
AUC < 0.5， 比 随机 猜测 还 差 ， 但 只 要 总 是 反 预 测 而 行 ， 即 分 类 器 预测 为 正 ， 就 改 为 
于 是 结果 的 分 类 器 就 会 优 于 随机 猜测 。 


Em 


[ R 例 6.12 】 二 分 类 混淆 矩阵 : 数据 ConfusionMatrix.csv， 函 数 performance 


> # R 例 6.12 

> library(ROCR) ; CM «- read.csv("C:/R/ConfusionMatrix.csv") 

> pred «- prediction(predictions = CM$prob Yes, labels -CM$Actual) 
> perf <- performance (pred, measure -"tpr", x.measure = "fpr") 

> plot (perf, main = "ROC", col = "blue", lwd-3) 

> abline(a-0,b-1, lwd=2, lty =2) 

> auc <- performance (pred, measure -"auc") 

> unlist(aucQy.values) # 计算 AUC 


[1] 0.9835862 


6.5.9 连续 型 目标 变量 回归 模型 的 评价 


连续 型 目标 变量 的 模型 ， 包 括 回归 模型 、 支 持 向 量 机 模型 、 神 经 网 络 模型 ， 其 自 变量 
数值 是 连续 型 变量 。 

假设 有 n 个 测试 数据 ， 有 k 自 变量 (属性 ) ， 模 型 预测 目标 变量 值 为 p,,p,,…p,， 而 实 
际 数值 为 a1,a,,…a, 有 下 列 评价 指标 

(1) 均 误 差 ME (Mean error) : 

yra Da) tlp a) 
n 
(2) 均 方 误差 MSE (Mean squared error) : 


2 2 
MSE = (P-a) +…+(p, —0,) 
n 


(3) 根 均 方 误差 (或 均 方 根 误差 ) RMSE (Root mean squared error) : 


(ni -a) ++ (p, -a,) 
n 
(4) 平均 绝对 误差 MAE (Mean absolute error). : 


Marg -Palle -a,| 
n 


(5) 平均 百 分 误 差 MPE (Mean percentage error) : 


jo, = = 
ABE: [e a) |...» xJ 
n a a 


i n 


ruse - | 


(6) 平均 绝对 百 分 误 差 MAPE (Mean absolute percentage error) : 


‘ape. tele... Id 
n 


a, a, 


(7) 相对 方 误差 RSE (Relative squared error) : 


RSE = 


(P-a) *-(,-2,) 

(a,-a) +---+(a,-a) 
a=(a,+---+a,)/n 

(8) 根 相 对 方 误差 RRSE (Root relative squared error) : 

(n -a) ttp -ay 


(a. -可 (a. -可 


(9) 相对 绝对 方 误差 RAE (Relative absolute error) : 


RRSF = 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实 战 (基于 RR 语言 ) 


Apa]. -ol 
la —a|+--- 

在 其 他 变量 不 变 的 情况 下 ， 引 入 新 的 变量 ， 总 能 提高 模型 的 RE。 修正 R? 就 是 相当 于 给 
变量 的 个 数 加 第 罚 项 。 如 果 两 个 模型 ， 样 本 数 一 样 ， 忆 一样， 那么 从 修正 及 的 角度 看 ， 使 
用 变量 个 数 少 的 那个 模型 更 优 。 使 用 修正 R? 也 算 一 种 奥 卡 姆 剃刀 的 实例 。 

R? 可 以 用 来 评价 模型 的 拟 合 程度 。 当 评价 拟 合 程 度 的 同时 ， 也 考虑 到 模型 的 复杂 程 
度 ， 那 么 就 是 修正 R?。 

增加 自由 参数 的 数目 提高 了 拟 合 的 优良 性 ，AIC 鼓 励 数据 拟 合 的 优良 性 但 是 尽量 避免 
出 现 过 拟 合 的 情况 。 所 以 优先 考虑 的 模型 应 是 AIC 值 最 小 的 那 一 个 。 赤 池 信 息 量 准则 的 方 
法 是 寻找 可 以 最 好 地 解释 数据 但 包含 最 少 自由 参数 的 模型 。 

ao) 赤 池 信息 量 准则 AIC (Akaike information criterion) : 


RAE 


a,—a 


Arc =n xtog{ S|+2xk 
QD 贝 叶 斯 信息 量 准 则 BIC (Bayesian information criterion) : 
BIC=n o 2 Jee xlog(n) 
(12) 修正 R 方 CAdjusted R?) : 


g -1 
adjusted R? =1-| —" ) 1- R° 
g ( ) 


AC RSS = Llp p-a), TSS- Y (a-a) 
i=l 


(13) 马 洛斯 Cp (Mallow’ sCp) : 


Rz 


Gore OO (sse «2 c°’) 
= =p Xp —— oO 
P SE, p => p 


13 】 回 归 模型 交叉 验证 : 数据 Auto.csv， 函 数 glIm、cv.gIm 


数据 框 格式 data.frame: 392 个 观察 值 “10 个 变量 


> 4 R 例 6.13 

> library (boot) 

» Auto «- read.csv("C:/R/Auto.csv") 
> glmodel <- glm(mpg ~ horsepower, data = Auto) 
> cvl.error <- cv.glm(Auto,glmodel)$delta[1] # LOOCV 均 方 误差 
» cvl.error [1] 24.23151 
» set.seed(100) 

> glmodel «- glm(mpg ~ horsepower, data = Auto) 

> cvl0.error <- cv.glm(Auto,glmodel, K-10)$delta[1] # 10 折 交 叉 验 证 均 方 误差 
> cvl0.error [1] 24.23566 


模型 选择 与 评价 


R 语 言 实战 


6.6.1 ”RR 语言 自动 调 模 与 调 参 


在 R 语 言 的 caret 包 ， 可 以 用 函数 modelLookup 访问 模型 的 参数 ， 用 函数 train 训练 模 
型 ， 用 函数 trainControl 调整 模型 ， 用 函数 expand.grid 调整 模型 参数 ， 用 函数 predict 预测 
测试 数据 ，caret 包 在 本 书 适 用 的 模型 如 表 6-7 所 示 。 
表 6-7 caret 包 训练 与 调 参 的 模型 
包 package | 函数 function | 
C50, plyr 


决策 树 CART “| 分 类 /回归 | rpart el 


贝 叶 斯 NB i laplace, usekemel, adjust 


贝 叶 斯 NB Kl fL, usekemel, adjust 
threshold 


ii ey y 
a mes e em] 
fate em e 
xim [e [mter ar 


【 R 例 6.14 】 训 练 与 数据 credit.csv， 函 数 modelLookup、train 


数据 框 格式 data.frame: 1000 个 观察 值 ”17 个 变量 


> # R 例 6.14 

> library(caret) ; modelLookup("knn") ; modelLookup("C5.0") 
» credit «- read.csv("C:/R/credit.csv") ; set.seed(100) 

> model «- train(default ~ ., data = credit, method = "knn") 
» model 

> model «- train(default ~ ., data = credit, method = "C5.0") 
» model 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


6.6.2 汽车 数据 


【 R 例 6.15 ] 数据 Auto.CSV， 
数据 框 格式 data.frame: 392 个 观察 值 ”10 个 变量 


> 4 R 例 6.15 

> library(ISLR) ; set.seed(100) ; str(Auto) 

> train <- sample (392,294) 

> lmodel <- 1m(mpg-horsepower, data-Auto, subset-train) 

> attach (Auto) 

> mean ( (mpg-predict (lmodel, Auto) ) [-train]^2) 

> lmodel2 <- lm(mpg-poly (horsepower,2), data=Auto, subset=train) 
> mean ( (mpg-predict (1lmodel2, Auto) ) [-train]^2) 

> lmodel3 <- lm(mpg-poly(horsepower,3), data-Auto, subset=train) 
> mean ( (mpg-predict (1model3,Auto)) [-train]^2) 

> train <- sample (392,294) 

> lmodel <- lm(mpg~horsepower, data=Auto, subset=train) 

> attach (Auto) 

> mean ( (mpg-predict (lmodel, Auto) ) [-train]^2) 

> lmodel2 <- lm(mpg~poly(horsepower,2), data-Auto, subset=train) 
> mean ( (mpg-predict (1model2,Auto)) [-train]^2) 

> lmodel3 <- lm(mpg~poly (horsepower,3), data-Auto, subset=train) 
> mean ( (mpg-predict (1model3,Auto)) [-train]^2) 


6.6.3 ”乳腺 癌 诊断 数据 


ee 收集 数字 化 
图 像 并 加 以 计算 ， 有 569 个 观察 值 ，31 变量 : 

第 1 栏 : 识别 号 码 (ID number) : 识别 号 码 

BIE: 诊断 结果 (Diagnosis) : 恶性 (M= malignant) 、 良 性 (B = benign) 

第 3 一 32 栏 :Cl 、C2…C30 这 30 项 数据 全 部 都 是 计算 每 一 个 细胞 核 的 真实 数据 测量 
E, BEB, AE, AK AE PAR KERE OMKER MERDA HER 
度 、 碎 型 维度 等 。 


> 4 R 例 6.16 


> install.packages("kdevine") ; install.packages ("tree") 


4 WOW WV VW NV ^. WV V V V oV VOV ON VM VM OUO OM 


library(tree) ; library(kdevine) ; data (wdbc) 

wdbc «- read.csv("C:/R/wdbc.csv", header-T, sep-",") ; str(wdbc) 
wdbc = na.exclude(wdbc) ; dim(wdbc) 

wdbc-wdbc[,-1] ; n = 0.3*nrow (wdbc) 

test.index-sample (1:nrow (wdbc),n) 
wdbc.train-wdbc[-test.index,] 

wdbc.test-wdbc[test.index,] 

wdbc.tree-tree(diagnosis- . , data-wdbc.train) ; wdbc.tree 
summary(wdbc.tree) ; plot(wdbc.tree) ; text (wdbc.tree) 
diagnosis.train-wdbc$diagnosis[-test.index] 
train.pred-predict (wdbc.tree,newdata- wdbc.train, type-'class') 
(table.train-table (diagnosis.train,train.pred)) 

cat ("Total records (train)-",nrow(wdbc.train), "\n") 
cat("Correct Classification Ratio(train)-", 

sum (diag (table.train) )/sum(table.train) *100,"%\n") 
diagnosis.test=wdbc$diagnosis [test .index] 

test .pred=predict (wdbc.tree,newdata-wdbc.test, type='class') 
(table.test=table (diagnosis.test, test.pred) ) 

cat ("Total records (test) =",nrow(wdbc.test),"\n") 

cat ("Correct Classification Ratio(test)=", 

sum (diag (table.test) ) /sum(table.test) *100,"%\n") 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) ] 


o 本 章 思维 导 图 


训练 集 建立 模型 


数据 集 | 验证 集 优化 参数 
测试 集 预测 结果 


保留 方法 : R 例 6.1，6.2 base::sample 
自助 法 抽样 : R 例 6.3  boot:boot 

632 自 助 法 : R 例 6.4 OOB 

过 抽样 hacide 数据 : R 例 6.5 ROSE::ROSE 


把 折 交叉 验证 credit 数据 : R 例 6.6 


参数 和 非 参 数学 习 
模型 的 复杂 度 
模型 选择 与 评价 


认真 学 习 与 懒惰 学 习 


0-1 分 类 RAER: 


CM 数据 : R 例 6.7，6.8 


总 成 本 /效益 
多 标签 分 类 评价 iris 数据 : R 例 6.9，6.10，6.11 
模型 评价 


交叉 验证 评价 


RR 语言 实战 | 汽车 Auto 数据 : R 例 6.15 cop 
| 乳腺 癌 诊 断 wdbc 数据 : R 例 6.16 To 
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/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


e 多 元 线性 回归 | 


回归 分 析 (Regression analysis) 是 有 一 个 以 上 的 自 变量 OFE MWEE, MRE 
E) 和 一 个 因 变 量 〈 目 标 变量 、 被 解释 变量 ) 。 一 个 的 自 变量 和 一 个 因 变量 ， 是 简单 线 
性 回归 ， 请 见 《 大 话 统计 学 》 第 13 章 。 多 个 的 自 变量 和 多 个 因 变 量 ， 是 计量 经 济 的 联 立 
方程 。 

多 元 线性 回归 (multiple linear regression analysis) 是 分 析 两 个 以 上 自 变 量 对 一 个 因 变 量 
的 直线 相关 关系 。 


7.1.1 多 元 线性 回归 模型 


多 元 线性 回归 分 析 的 数学 模型 如 下 : 
L-ACAX tX. c Bite te i=l,---,n 
假定 条 件 有 以 下 几 条 。 
OD A.B. BARAER (OBRO 。(k 个 控制 变量 ) 
OD 与 是 第 /个 控制 变量 〈 自 变量 ， 解 释 变 量 ) 的 第 i 个 样本 数据 值 ， 没 有 误差 。 
(Vi Xa Xi Xa) A AER o 
G) & 是 误差 项 ， 随 机 变量 ， 独 立 ， 期 望 值 为 0， 方差 未 知 但 相同 。 
E(é,)=0.V (¢,)=0°.Cov(e,.¢,)=0 izj 

(4) YEWERE 〈 因 变量 ， 被 解释 变量 ) ， 独 立 ， 方 差 未 知 但 相同 ， 期 望 值 为 : 

f Bx, t Hx BM 

E(YX) - fy + Exi + Exo + Ax V (Y) - 0^. Cov(Y.Y,)-0 iz j 
假定 条 件 用 文字 来 叙述 : 
(1) 假定 因 变量 (预测 值 ) 是 自 变 量 的 线性 函数 ， 其 系数 为 2,2 Be 
(2) 残 差 或 误差 项 《〈 因 变量 的 实际 值 与 预测 值 之 差 ) 是 独立 的 。 
(3) 残 差 之 均值 为 零 ， 残 差 之 方差 是 常数 (RA o 
(4) WREX ,PB,…B. 作 区 间 估 计 和 检验 ， 假 定 残 差 是 正 态 。 
要 对 ,PB,…P 作 点 估计 ， 不 须 假定 残 差 是 正 态 。 数 据 最 好 不 要 有 极 值 。 
以 上 模型 可 以 用 矩阵 来 表示 : Y=XB +6 e 


29s 


Y 1 X X Me 
x, | ox E ~ x 
2 21 22 2k 
Y= AX. i 
Y, 1 Xa X x, ik 
Bo a 1 1 1 
P, E. Xu. MALUS = 
1 2 11 21 31 
B= co (lag ne. Sa eae a 
B. £, Xy X CU Xy 


AXT EXW BERS (transpose) o Yi nx] WERE, Xi nx(k+ DIIABPE, BAECH1)x1 
的 矩阵 ，s 是 nx1 ARBRE, XTJ&(crl)mn 的 矩阵 。 


b 
的 估计 量 b 是 :b=| 
b 


n 


7.1.2 参数 估计 


参数 8 的 点 估计 2， 是 利用 最 小 二 乘法 (least squares method) ， 这 是 使 误差 项 的 平方 和 


最 小 的 估计 值 。 求 得 下 列 联 立方 程式 : 
X'Xb- X'Y 
所 以 B 的 估计 量 b 是 : 
b=(X'X) X7Y 
两 个 自 变 量 的 最 小 二 乘法 和 多 元 回归 如 图 7-1 所 示 。 


X 


图 7-1 ”最 小 二 乘法 和 多 元 回归 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


计算 方差 分 析 的 各 项 平方 和 如 下 : 
COD 总 离 差 平方 和 (Total Sum of Squares) : 
SST= "(N= y» = SSE +SSR=Y'Y -nY* 
(2) 回归 平方 和 CRegress Sum of Squares) : 
SSR- Yl (3,-¥) -&XY -nY? 
(3) 残 差 平方 和 (Residual Sum of Squares， 请 注意 : 在 有 些 书 用 RSS 缩 写 ) : 
SSE = 了 (s,-$) -XY-bXY 
回归 模型 方差 未 解释 方差 ) 0 的 估计 量 ?: 
body ru d 
nk A BY = n-k-1 
多 元 判定 系数 R? (coefficient of multiple determination〉 是 判定 所 有 XY 变 量 对 7 是 否 有 
(直线 的 ) 关系 。 修 正 判定 系数 R Cadjusted R) 定义 如 下 : 
SSR) SE a 4 n=l ‘= 
SST SST d n-k-1 
回归 系数 估计 量 b 的 共 变量 和 矩阵 (covariance matrix) 是 : 
V(b,) Cov(b,,b) mi Cov(b,.b,) 


MSE = 


SST 


Cov(b) = il y) j Cov(b.b.) -e(xy 
Cov(b,.b,) Cov(b.h) -- V(b) 
Cov(b.b) - V (b) 
共 变 数 和 矩阵 Cov(b) 的 估计 量 : 
$2 ($a Ut Sip 
Sp= in ^ m s -MSE(XX)' 
Say Saha Ss 


7.1.3 ”适合 性 检验 


利用 方差 分 析 F 分 配 检验 回归 方程 的 显著 性 : 
Hy: b=p,=**=p,=0 

H, 至 少 有 一 个 8 #0 

多 元 回归 分 析 的 方差 分 析 如 表 7-1 所 示 。 


表 7-1 ”多 元 回归 分 析 的 方差 分 析 


MSR rk 
注 : Po MsE HP) fem 则 拒绝 Ho。 
模型 评价 指标 : 


SSE 
1) AIC = nso 2)+2xp 
n 


SSE 
(2) CP- 2 —n+2xp 
MSE, 


a cP = 1( SSE +2p6?) 
n 


SSE 
(3) Bc=nxios[ 2 )+ pxlos(n) 
n 


(4) Adjusted gg = Ja-e) 
n-p-l 


n 是 样本 的 数目 ，p 是 自 变量 的 数目 ，SSE, = 了 个 自 变量 回归 的 残 差 平方 和 SSE. 
MSE ,全 部 自 变量 回归 的 残 差 均 方 MSE， 误 差 项 的 估计 值 6? 。 

模型 的 41C、CP、BIC 是 越 小 越 好 ， 其 中 有 自 变量 的 数目 P， 是 惩罚 项 。 

模型 的 RY、 是 越 大 越 好 。 


7.1.4 实例 计算 


食品 公司 抽样 16 个 超级 市 场 ， 比 较 广告 与 销售 量 的 关系 。 自 变量 多 是 DM 信箱 广告 ， 


自 变量 如 是 销售 点 试 吃 广告 ， 因 变量 7 是 广告 期 间 销售 量 。 多 元 回归 分 析 。 


MLR.cvs 文件 如 下 : 


/大 话 数据 科学 


也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


| A B c 8.74 
1X x2 Y 1n35 
2| 2 2 8.74 NM 
3 | 2 3 10.53 
4 2 4 10.99 pud 
5 2 5| 1L97 12.74 
6 3 2| 12.74 12.83 
7 3 3 12.83 14.69 
8 3 4 14.69 + | 15.30 
9 3 5| 15.3 Pun s 
10 4 2 16.11 16.31 
11 4 3 16.31 16.46 
12 4 4 16.46 17.69 
13 | 4 5 117.69 ines 
14 5 2 19.65 
15 5 3 18.86 18:86 
16 5 4 19.93 Ed 
17 5 5 2081 2051 

16 56 56 12875 -0.175 -0.175 
X'X-|56 216 196 pas -0.175 0.05 0 
56 196 216 -0.175 0 0.05 


12875 -0.175 -0.175 (243.31) (2.13437 
b-(x'x) X'¥=|-0.175 005 0 ||912.17 |=| 3.02925 
-0.175 0 0.05 }\ 865.70) (0.70575 


回归 方程 为 : 
y=2.13437+ 3.02925X1 + 0.705752 
SST =F" (v, -7) =SSE+SSR=Y™Y—nY? =197.25 
SSR=5" ($,-) -9X"Y -nY? =193.49 
SSR-Y7 (yh) -Y'Y -br XY =3.76 
回归 模型 方差 〈 未 解释 方差 ) ， 即 0? 的 估计 量 : 


FEAR : 
>_SSR_, SSE _ 
SST SST 


2=1-( n-l Es) 376 0978 
n—k-1) SST 13 J197.25 


r 


ee m xm xx ee 


Un n tn UA 4A dA d od oU) Q2) Q2) Q9 L2 NY NN 


n 上 上 mi 


wD 


Dw LY 


所 以 这 个 回归 模型 的 解释 能 力 相 当 高 。 
利用 方差 分 析 检验 Hy: B7, 0 的 假设 。 
多 元 回归 分 析 的 方差 分 析 如 表 7-2 所 示 。 
表 7-2 ”多 元 回归 分 析 的 方差 分 析 


Source 


回归 模型 3 SSR=193.49 F=334.75 


15 SST =197.25 
YE: FW F =334.75> Foz =3.81 ， 所 以 拒绝 H0。 
共 变 量 和 矩阵 Cov(b) 的 估计 量 : 


12875. -0175 -0:175 
S? =0.289| -0.175 0.05 0 
0:175 0 0.05 


7.1.5 ”R 语 言 的 实例 计算 


7.1.4 节 实例 的 R 语言 程序 如 下 


【 R 例 7.1 ES reg{ 定 义 函 数 } 
数据 框 格式 data. frame: 16 个 观察 值 ”3 个 变量 


> 4 R 例 7.1 

> MRL <- read.csv("C:/R/MRL.csv") 

> str(MRL) ; head(MRL) ; edit(MRL) ; options (digits=3) 
> + 利用 矩阵 运算 ， 定 义 reg AR 

> reg <- function(y, x) ( x «- as.matrix(x) 

+ x <- cbind(Intercept = 1, x) # X 矩阵 

+ b <- solve(t(x) $*$ x) 3+% t(x) $*9 y 


+ colnames(b) «- "估计 参数 " 
+ print(b) #b = 回归 参数 


+n <= nrow(x) + k <- nrow(b)-1 


+ z «- mean(y) + y «- as.matrix(y) 

+ b <- as.matrix(b) + SS1 <- n * z ^2 
SS2 <- t(b) $*9 t(x) %*% y 

SS3 <- t(y) %*% y + S1 <= SS2 = ssi 
52 <= 593 = S82 + S3 <- 853 = SS1 
MSE <- S2 / (n-k-1) 

Rsq <- $1 / S3 


+ + + + + + 


AdjRsq «- 1 - (n-1)*S2/((n-k-1)*S3) 


/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


估计 参数 

s T R^) Intercept 2.1344 
+ xi 3.0292 
+ cat("SSE = ", S2, "An") x2 0.7058 
*ocat("SST — *, S$, “\a") SSR - 193.5 
+ cat("MSE = ", MSE, "\n") SSE = 3.762 
+ cat("Rsq = ", Rsq, "\n") SST = 197.3 

EE : P M MSE = 0.2894 

+ cat("AdjRsq = ", AdjRsq, "\n") } Rsq = 0.9809 
> reg(y = MRL$Y, x = MRL[1]) # X1 对 Y 回 归 AdjRsq = 0.978 
> reg(y = MRL$Y, x = MRL[1:2]) # X1，X2 对 Y 回 归 
> re <- lm(Y~X1+X2, MRL) ; re 
> # X1，X2 对 Y 回 归 
> summary (re) 

Coefficients: 

Estimate Std. Error t value Pr(»|tl) 

(Intercept) 2.134 0.610 3.50 0.0039 ** 

X1 3.029 0.120 25.18 2.0e-12 *** 

x2 0.706 0.120 5.87 5.5605 *** 


> anova(re) # X1，X2 对 Y 回 归 的 方差 分 析 


Analysis of Variance Table 


Response: Y 
Df Sum Sq Mean Sq F value Pr(>F) 


x1 1 183.5 183.5 634.3 2.0e-12 *** 
x2 1 10.0 10.0 34.4 5.5e-05 *** 
Residuals 13 3.8 0.3 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 `.” 0.1 `” 1 


变量 ( 特征 ) 选择 


7.2.1 偏 相关 系数 


偏 判定 系数 (partial determination coefficient) PrCnucao 胃 是 当 其 他 自 变量 “已 经 ”对 
y 作 回归 方程 式 ， 变 量 x 再 加 入 回归 方程 ， 则 可 以 增加 对 y 方 差 的 解释 程度 。 

偏 相 关系 数 (partial correlation coefficient) P, (necp a) 是 当 其 他 变量 保持 常数 ， 变 量 Y 
与 变量 了 的 相关 系数 。 换 言 之 ，p,iws 是 当 变量 马 与 互 保持 常数 ， 其 他 变量 不 考虑 时 ， 变 量 了 
与 变量 马 的 相关 系数 。 另 外 一 种 说 法 是 ， 马 对 马 与 已 回 归 的 残 差 (residual) , YHXX, 
回归 的 残 差 residual) ， 两 者 之 间 的 相关 系数 。 


Lo Pu PaPe _ 
(4 Pxz yl- Prz 


fr 


MEE A 


[ R 例 7.2 ] 数据 X，Y，Z 


数据 框 格式 data. frame: 4 观察 值 3 变量 


> 4 R 例 7.2 

> X —060,7,10,20) ;. Y = 6(2,1,3,4) 

> Z = c(0,1,1,1) ; options (digits = 3) 

> mml = lm(X~Z) ; resl = mml$residuals x NE. T Me. 
> mm2 = lm(Y~Z) ; res2 = mm2$residual Y 0.894 1.000 0.258 
> cor(resl,res2) # = 0.945 Z 0.577 0.258 1.000 
> M = data.frame(X, Y, Z) ; cor(M) 

$ r(XY.Z) = [r(XY) = r(XZ)*r(YZ)] / [sqr(1-r(XZ)^2)*sqr(1-r(YZ)^2)] 

# = [0.894 - 0.577*0.258] / [sqr(1-0.577^2)*sqr(1-0.258^2)] = 0.944 


样本 偏 判 定 系 数 RS, a except y 8) = Poe at except ya) EMAER P rtan econ ya 的 估计 量 。 样 本 
MAKRA R eqan excepi ya) = Pox att ecap y) 是 偏 相关 系数 yp. or excope x) 的 估计 量 。 
RSSRA AYA VANS “CRTE” FATA. SSRQCG, Xp X)AYX, X, 5X E 
归 的 “已 解释 方差 ”平方 和 。 
SSSRA ) 为 ?对 已 回归 的 误差 〈 残 差 ，“ 未 解释 方差 ”) ITH. SSE(X,, Xo XQAY 
对 忆 ， 马 与 蕊 回归 的 误差 〈 残 差 ，“ 未 解释 方差 ”) 平方 和 。 
SST=SSR(X,)+ SSE(X,)=SSR(X,» X) -SSEQX, xj---x(Y-Y) 
SSR(X,)S SSR(X,, X) SSSRA, X, X)&-XSSRQ, X, o X) 
自 变量 越 多 ，SSR 越 大 ，SSE 越 小 。 
SSE(X) ESSEX,» X> SSEX» X, XB SSSEX» X, 5 X) 
4SSRQCG | X) "expost, MAX AERA, ADAM “已 
解释 方差 ”平方 和 ”; SSRA, | Xo. XA “BEX, XAYNI, dn BELA EE 
自 变 量 ， 可 以 增加 回归 的 “已 解释 方差 ”平方 和 ”。 
SSR(X, | X,)=SSR(X,, X,)—SSR(X,)=SSE(X,)—SSE(X,, X,) 
SSR(X, | X,» X,)=SSR(X,, X, X)—SSRQG X,)=SSE(X,, X,)—-SSEX,, X, X) 
PAUSE YAEL Ab EI 28280 RU iL KE ABR? 或 记 作 Rir, xon 的 计算 如 下 : 
i JOSSRUCIXQE X) _ SSE), XG) -SSECG X, XX.) 
ERU SSE XXX) SSE(X,. X,. X,) 
; 00 SSR(X, X, X, X.) -SSR(X, X, X.) 
f SST — SSR(X,. X. X,) 


(«x 2, <1) 


/大 语 数 据 科学 
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当 回归 方程 式 已 有 X,，XY，…，XX,, 自 变量 ， 如 果 加 入 新 增 的 自 变量 X,， 但 是 使 
SSR(X_X,,..X,, JO BISSRQE, X,...X, X), MIMD, BUSSRQC | XX XM» WA 
ARB NERA TRU; Fes X, fn E729 


SSR (X,) -SST 一 Ria 
SSR (X) -SSR OG X,- SSE (X,, X.) -SST 


SSR (X,, X,) +SSR (X,|X,, X,) +SSE (X,, X,, X) -SST. 


OO errr N 
SSR (X, X,, X) +SSR X, [X,, X» X.) SSE OG, Xn Xp X) SST 


ar 
SSR (X,, X,, Xs, X) #SSR (X, |X,, X>, + SSE (X,, X,, X,, X,, Xj) -SST 
Y5-1234 


图 7-2” 偏 相关 系数 公式 


偏 相 关系 数 检验 : 
Hy: 已 经 有 闷 对 7 回归 ， 则 总 不 值得 加 入 对 7 的 回归 方程 ， 即 pz =0 。 
Hy: 已 经 有 敌对 7 回归 ， 则 名 值得 加 入 对 7 的 回归 方程 ， 即 p,,, 0. 
检验 的 统计 量 (n 是 样本 数据 的 数目 〉: 

po Bavn-3 

Ji- 85, 
8|». s: 则 拒绝 H,。 
前 进 式 逐步 回归 检验 ; 
Hy AXXa AYE, WX, DEMAR YKE E M p,， wb 70. 
Hy: AXXa AYE, WY AAR YAE, B p, e 
检验 的 统计 量 (n 是 样本 数据 的 数目 》: 
r- Raza ay n-k-l 


4 x NS ite ) 


PE >te ， 则 拒绝 Hu。 
FO) 


[ R 例 7.3 ] 数据 X1~X4，Y， 函 数 Im 
数据 框 格 式 data.frame: 9 个 观察 值 5 个 变量 , XI, X2, X3, X4, Y 


> 4 R 例 7.3 

> if(!require (asbio) ) {install.packages("asbio")} ; library (asbio) 
» Xl «-c(13,20,10,11,2,25,30,25,23) 

> BP <-0(1.2,2,2.5; 1,0.35, 2.3, 2:7,2-5) 


29s 


X3 «-c(15,14,16,12,10,18,25,24,20) 
X4 «-c(45,120,100, 56,5,20,5,15,15) 
Y«-as.vector (c(20,30,10,15,5,45,60,55,45)) 
1m.with«-lm(Y-X14X24X34X4) 
lm.without«-update (1m.with, ~. - X2) 


NE ONE ONU ONDE UN! 


partial.R2(1m.without, lm.with) 


[1] 0.202 


7.2.2 逐步 回归 


选择 适当 的 多 元 回归 模式 ， 有 两 种 方法 : 一 种 是 后 退 消除 法 (Backward elimination 
procedure) ， 另 一 种 是 逐步 回归 法 (Stepwise Regression Procedure) . 

(1) 后 退 消除 法 〈Backward elimination procedure) 是 将 所 有 自 变量 放 入 多 元 回归 模 
式 ， 然 后 删除 不 适当 的 无 关 自 变 量 ， 一 直到 找 出 最 适当 的 多 元 回归 模式 ， 逐 一 移 除 变量 直 
到 移 除 任 何 一 个 变量 时 ， 模 型 都 会 损失 过 多 的 解释 力 。 适 合 样本 数 n 大 于 变量 数 p。 

(2) 前 进 选 择 法 (Forward selection procedure) 是 先 将 一 个 自 变 量 放 入 复 回归 模式 ， 
然后 再 加 入 适当 的 有 关 自 变量 ， 一 直到 找 出 最 适当 的 回归 模式 ， 任 何 一 个 变量 的 额外 贡献 
E CIH) 已 经 没有 统计 意义 了 。 适 合 于 变量 数 p 大 于 样本 数 n。 

G) 双向 逐步 回归 法 (Both Stepwise Regression Procedure) 是 以 上 两 种 方法 的 结合 ， 
同时 考虑 新 增 或 移 除 变量 对 模型 的 影响 ， 但 是 运算 效率 会 比较 慢 。 前 进 法 在 新 增 变 量 后 就 
不 会 再 取出 ， 并 以 现状 为 基准 ， 来 衡量 后 续 添 加 变量 的 贡献 。 因 此 有 时 候 会 因为 添加 顺序 
而 产生 问题 ， 例 如 开始 先 选 X1. fe PRR X2. 可 是 如 果 先 选 之 ， 却 不 保证 接 下 来 一 
定 会 选 万 。 后 退 也 同 理 。 

用 R 语 言 的 几 个 包 ， 做 逐步 回归 ， 程 序 码 没有 数据 : 


> library(tidyverse) ; library(caret) ; library(leaps) ; library (MASS) 
> # MASS 包 建 立 一 个 完整 的 线性 回归 

> full.model <- lm(Y ~., data) 

> # Stepwise regression model 

> # direction = 双向 "both" , AIH "forward", [AiR "backward" 

> + RIC 移 除 或 增加 变量 ， 看 移 除 或 增加 哪个 变量 后 arc 下 降 或 增加 最 多 

> step.model <- stepAIC(full.model, direction = "both", trace = FALSE) 
> summary (step.model) 

> # leaps @regsubsets 的 method = 后 退 "backward"， 前 进 "forward"， 双向 
+ "aseqrep* 

> models <- regsubsets(Y-., data , nvmax = 5, method = "seqrep") 

> summary (models) ; set.seed(123) 

> 4 k 折 交 叉 验证 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


train.control «- trainControl(method = "cv", number = 10) 

# caret 包 的 训练 函数 train 训练 leaps & 

# method = 后 退 "leapBackward"， 前 进 "leapForward"， 双 向 "leapSeq" 
step.model «- train(Y -., data, method = "leapBackward", 

tuneGrid = data.frame(nvmax = 1:5), trControl = train.control ) 
step.model$results ; step.model$bestTune 

summary (step.model$finalModel) 

coef (step.model$finalModel, 4) 

# caret 包 的 训练 函数 train, WllfkMAss @ 

step.model <- train(Y ~., data, method = "lmStepAIC", trControl = 
train.control, trace = FALSE ) 

step.model$results # 模型 正确 性 

step.model$finalModel # 最 后 模型 系数 


summary (step.model$finalModel) 


V VV + ON VV Vv VV VY NM 


7.2.3 ”部 分 子 集 回归 


部 分 子 集 回归 法 (Subsets Regression) 可 选择 限制 回归 变量 的 数目 。 


[ RBI7.4] ut S 
数据 框 格式 data.frame: 47 个 观察 值 6 


PSs 

个 变量 
+ RBI7.4 

install.packages ("tidyverse") 
install.packages ("caret") ; install.packages ("leaps") 
library(tidyverse) ; library(caret) ; library (leaps) 

data(swiss) ; str(swiss) # 'data.frame': 47 obs. of 6 variables 
models «- regsubsets(Fertility-., data = swiss, nvmax = 5) 
summary(models) ; res.sum «- summary (models) 

data.frame( Adj.R2 = which.max(res.sum$adjr2), 

CP = which.min(res.sum$cp), BIC = which.min(res.sum$bic) ) 

# Adj.R2 = Adj.R2 最 大 的 变量 数目 

# CP = CP 最 小 的 变量 数目 ，# BIC = BIC 最 小 的 变量 数目 ) 


get model formula <- function(id, object, outcome) { 


+ Vv Vv o VV M NN MM 


models <- summary (object)$which[id,-1] 

predictors <- names (which (models == TRUE)) 

predictors «- paste(predictors, collapse = "+") 
as.formula(paste0 (outcome, "~", predictors)) } 

get model formula(3, models, "Fertility") 4 3 个 变量 的 模型 
get cv error < 一 function (model.formula, data) {set.seed(1) 


train.control <- trainControl (method = "cv", number = 5) 


cv <- train(model.formula, data = data, method = " 


++ +V V+++ 


trControl = train.control) + cv$results$RMSE } 


29s 


> + 计算 交叉 验证 误差 

> model.ids «- 1:5 

+ cv.errors <- map(model.ids, get model formula, models, 

+ "Fertility") %>% + map(get cv error, data = swiss) %>% unlist() 


> cv.errors ; which.min(cv.errors) ; coef (models, 4) 


7.2.4 压缩 方法 


逐步 回归 是 使 用 自 变量 子 集 法 (subsets) ， 将 个 别 变量 进行 放 入 模型 或 移 除 ， 看 模型 
的 表现 幅度 怎么 样 。 压 缩 方法 (shrinkage) BARNA, MAB YB, 加 以 限制 ， 
使 得 自 变量 随 着 惩罚 值 4 增加 时 ， 其 系数 会 有 所 收缩 。 压 缩 方 法 是 压缩 自 变量 ， 是 正则 化 
(regularization) 的 技巧 ， 将 回归 的 权重 和 给 予 限制 ， 借 此 限制 模型 的 复杂 度 ， 解 决 过 拟 合 
的 问题 。 

压缩 方法 称 为 惩罚 性 回归 ， 正 则 化 回归 ， 有 三 种 回归 模型 : Ridge 回 归 、Lasso 回 归 和 
Elastic net 回 归 ， 如 图 7-3 所 示 ， 其 数学 公式 跟 几何 意义 表示 如 下 : 

Q Ridge 回归 : 使 用 L2-norm 进 行 正则 


min io -f]- Ys, ) L ONA <s 
写成 拉 格 朗 日 方程 : 


DE -A -Dp | dn 


式 中 :1 是 惩罚 系数 ， 不 同 的 4 会 有 不 同 的 Ridge 回 归 估计 p, 。 
@ Lasso 回归 : 使 用 L1-norm 进 行 正则 
DE =hF 1 ) |n 37 <s 
写成 拉 格 朗 日 方程 ; 

DE ~ Po DA, ) + 433, | 
AP: 1 是 惩罚 系数 ， 不 同 的 4 会 有 不 同 的 Lasso 回 归 估 计 启 ,。 
@ Elastic net 回归 : 结合 使 用 L1-norm 和 L2-norm 进 行 正则 


alioa ej AoEisa- oa] 


Elastic net 回归 结果 是 Ridge 回归 和 Lasso 回 归 的 组 合 。 


大话 数 据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) ] 


B= ito, Bis 


(a) Ridge 回归 (b) Lasso 回 归 
7-3 Ridge 回归 与 Lasso 回 归 


系数 和 的 限制 ， 用 Lp 范 数 :|c| ,= (Xe) 

Lasso 是 L1 范 数 是 A, 的 绝对 值 和 给 予 限制 ， 形 成 鞭 形 的 可 行 解 域 。 

Ridge 是 L2 范 数 是 p, 的 平方 和 给 予 限制 ， 形 成 圆 形 的 可 行 解 域 。 

由 于 LI 跟 L2 形 成 的 可 行 解 域 并 不 同 ， 因 此 在 收缩 变量 上 面 ，Ridge # Lasso 的 表现 也 
不 一 样 。 

用 R 做 图 ，X 轴 为 4〈 惩 罚 值 ) ，Y 轴 为 各 变量 的 系数 值 。 随 着 4 增加 时 ，Lasso 的 变量 
系数 会 陆续 变 为 0， 但 Ridge 却 不 一 样 ， 直 到 某 个 瞬间 才 会 全 部 一 起 变 成 0。 因 为 这 样 的 特 
性 ， 只 要 选取 一 个 恰当 的 4 ， 便 可 以 在 Lasso 上 找 出 系数 尚未 为 0 的 变量 ， 以 此 来 进行 变量 
挑选 ， 如 图 7-4 所 示 。 


B, 


图 7-4 4 的 收缩 效果 
不 同 的 4 会 产生 不 同 的 收缩 效果 ， 所 以 可 以 利用 交叉 验证 的 手法 ， 验 证 在 不 同 4 值 下 


模型 的 表现 如 何 ， 然 后 取 残 差 最 小 的 〈 表 现 最 好 ) 模型， 其 所 对 应 的 4 算是 比较 好 的 值 。 


[ R 例 7.5 ] BéBtrees. SVC, BMglmnet{glmnet} 


数据 框 格式 data frame: 31 WEA ”3 个 变量 


+ R 例 7.5 

if(!require (glmnet) ) {install.packages ("glmnet") } 
library(glmnet) ; data(trees) ; data <- trees ; str(data) 
Y = data[,3] ; x <- model.matrix(Y-., data) [,-1] 

lambda <- 10*seq(10, -2, length = 100) ; set.seed(100) 
train = sample(1:nrow(x), nrow(x)/2) + 抽样 半数 当 训练 数据 
test = (-train) # 另外 半数 当 测 试 数据 

# 建立 基本 的 Ridge 模型 alpha = 0 是 ridge 回归 
ridge.mod <- glmnet(x[train,], y[train], alpha = 0, lambda = lambda) 
# 用 交叉 验证 找 最 适 lambda 最 佳 的 惩罚 值 lambda.min 


cv.out «- cv.glmnet(x[train,], y[train], alpha = 0) 


bestlam «- cv.out$lambda.min 

# 预测 

ridge.pred «- predict(ridge.mod, s = bestlam, newx = x[test,]) 
mean((ridge.pred-ytest)^2) # 计算 误差 MSE 

# 建立 基本 的 Lasso 模型 alpha = 1 是 lasso 回归 

lasso.mod <- glmnet(x[train,], y[train], alpha = 1, lambda = lambda) 


= 


lasso.pred <- predict(lasso.mod, s = bestlam, newx = x[test,]) 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 


mean ( (lasso.pred-ytest) ^2) 


Logistic 逻 辑 回归 


Logistic GHE, HARRE) 的 因 变 量 〈 目 标 变量 、 被 解释 变量 、 响 应 变 
量 ) 是 分 类 变量 ， 基 本 上 是 二 分 类 变量 ， 也 可 以 扩张 到 多 分 类 变量 。 

Logistic 回 归 的 假定 条 件 : 

C1) 因 变 量 ( 预 测 值 》 是 分 类 变量 ， 自 变量 X 是 连续 变量 。p = p(X) 是 预测 值 的 
概率 。 

(2) logit(p)= log(p /(1 -p)) 是 自 变 量 的 线性 函数 。 

(3) 自 变 量 没有 极 值 。 

(4) 自 变 量 没有 高 度 的 内 部 相关 〈 共 线性 ) 。 

XESRIBDUHBS BERE Y, X, x. AY, 自 变量 蕊 是 连续 变量 ，I 是 0-1 分 类 变量 。 
假定 : = a A 


/ 估 话 数据 科学 
了 大 数据 三 机 开学 习 实战 (基于 R 语 言 ) 


p(Y-1|X-x)- p(X)Jé24 X =x HW Y — 1 的 概率 。 
如 果 用 多 元 直线 回归 |: 
p(X)=PB, +BX +2, X, +--+ BX, 
D(X) ERR, (UREA AEAF 1， 也 可 能 小 于 1， 这 就 不 对 ， 如 图 7-5 (a) 所 示 。 
了 是 0-1 二 分 类 变量 贝 努 里 (Bernoulli) 分 布 ， 这 是 二 项 binomial 分 布 家 族 的 成 员 ， 在 及 
语言 要 设 定 family—binomial. Alt p(X) 转换 为 logistic 函 数 ， 如 图 7-5 (b) 所 示 。 


0.8 0.8 


0 50 100 150 200 250 0 50 100 150 200 250 
X X 
(a) 线性 回归 Cb) 逻辑 回归 
图 7-5 ”线性 回归 与 逻辑 回归 


ePi PX Bo pX, 
P(X) - RA A, 
经 过 简单 数学 运算 : 


RA ae +ppTP 


p(X)/[1-p(X)]=e 
两 边 加 对 数 log 函 数 : 


too POD.) - B+BX HEX C EE, 
估计 参数 PB,,B,,P,,…B, 使 用 最 大 似 然 估计 ， 数 值 优化 算法 如 梯度 下 降 法 、 牛 顿 法 ， 用 
和 迭代 的 方法 求 其 最 优 解 。 
pup m 


Bor Bin By yr 


p(X =x)= >0.5 
1 


NC Bx, 


则 了 =1。 


[ R 例 7.6 】 股 票数 据 : Smarket {ISLR}， 函 数 glm{stats} 


数据 框 格式 data.frame: 1250 个 观察 值 ”9 个 变量 


> 4 R 例 7.6 


library("ISLR") ; data(Smarket) ; options (digits-4) 
head(Smarket) 4 Y-Direction 


gim.fit = glm(Direction ~ Volume, family=binomial, data = Smarket) 


Vv vv 


coef(glm.fit) 4 Logistic 回归 系数 


(Intercept) Volume 
-0.1151 0.1277 


glm.probs = predict(glm.fit, type="response") 
head(glm.probs) # P(Direction-Up | Volume = 1.191)=0.5093 


v 


v 


1 2 3 4 5 6 
0.5093 0.5126 0.5163 0.5120 0.5097 0.5143 


验算 
gre 


p(X =x) = geom = 0.5093 


7.4.1 ”股票 数据 


[ R 例 7.7 】 有 ‘dz: Smarket {ISLR}, Bea 


股票 数据 Smarket 是 S&P 股票 指数 ，2001 一 2005 年 1250 天 的 数据 。 
Smarket 是 一 个 数据 框 ， 有 以 下 9 个 变量 ，1250 个 观测 记录 。 
Year 为 观察 记录 的 年 份 ; 

Lagl 为 观察 记录 当天 和 前 1 天 涨 跌 的 百分比 ; 

Lag2 为 观察 记录 当天 和 前 2 天 涨 跌 的 百分比 ; 

Lag3 为 观察 记录 当天 和 前 3 天 涨 跌 的 百分比 ; 

Lag4 为 观察 记录 当天 和 前 4 天 涨 跌 的 百分比 ; 

Lag5 为 观察 记录 当天 和 前 5 天 涨 跌 的 百分比 ; 

Volume 为 观察 记录 当天 的 成 交 量 ; 

Today 为 观察 记录 当天 涨 跌 的 百分比 ; 

Direction 为 分 类 因子 ， 观 察 记录 当天 上 涨 或 下 跌 。 


> 4 R 例 7.7 
> if (!require (ISLR) ) {install.packages ("ISLR")} 
> library (ISLR) 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


> names(Smarket) ; dim(Smarket) ; options(digits = 3) 

» pairs(Smarket) ; head(Smarket) 

» cor(Smarket[,-9]) 

> 1lm(Today~Lagl+Lag2,data=Smarket) ; attach(Smarket) 

» plot (Volume) 

> gim.fit = glm(Direction ~ Lagl+Lag2+Lag3+Lag4+Lag5+Volume, 

+ family-binomial, data = Smarket ) 

> summary(glm.fit) ; coef (glm.fit) 

(Intercept) Lagl Lag2 Lag3 Lag4 Lag5 Volume 
-0.12600 -0.07307 -0.04230 0.01109 0.00936 0.01031 0.13544 


summary (glm.fit) $coef 

glm.probs - predict(glm.fit, type-"response") ; glm.probs 
glm.pred = rep("Down",1250) ; glm.pred[glm.probs> .5] = "Up" 
table(glm.pred, Smarket$Direction) 

mean (glm. pred==Smarket$Direction) 

train <- Smarket$Year <2005 #train = (Year<2005) 
Smarket.2005 = Smarket[!train, ] ; dim(Smarket.2005) 

# Direction.2005 = Direction [!train] 

Direction.2005 = Smarket$Direction[!train] 

glm.fit = glm(Direction ~ Lagl+Lag2+Lag3+Lag4+Lag5+Volume, 


family=binomial, data = Smarket, subset = train) 


> 

> 

> 

> 

> 

> 

> 

> 

a 

> 

+ 

> glm.probs = predict(glm.fit, Smarket.2005, type="response") 

> glm.pred = rep("Down", 252) ; glm.pred[glm.probs».5]-"Up" 
> table(glm.pred, Direction.2005) 

> mean(glm.pred!= Direction.2005) ; mean(glm.pred== Direction.2005 
> glm.fit = glm(Direction ~ Lagl+Lag2, family=binomial, data = Smarket, 
+ subset = train) 

> glm.probs = predict(glm.fit, Smarket.2005, type="response") 
> glm.pred = rep("Down",252) ; glm.pred[glm.probs>0.5]="Up" 
> table(glm.pred, Direction.2005) 

> mean(glm.pred!= Direction.2005) ; mean(glm.pred== Direction.2005 
> 106/ (106+76) 

> predict (glm.fit, newdata-data.frame(Lagl-c(1.2,1.5), Lag2-c(1.1,-0.8)), 
4 


type-"response") 


7.4.2 乳腺 癌 病 理 数据 


数据 框 格式 ， 209 个 样本 观察 值 11 个 特征 变量 (不 含 ID 编号 ) 
(OD ID 编号 ， (2) V1 肿块 厚度 ， (3) V2 细胞 大 小 均匀 性 ; (4) V3 细胞 形状 均匀 
YE: (5) V4 边缘 粘连 (6) VS 上 皮 细 胞 大 小 ; (D V6 REG (8) V7 温 和 的 染色 质 ; 


59s 


(9) V8 正常 核 ， (10) V9 有 丝 分 裂 ， (11) class 分 类 (“良性 ”=2 或 “恶性 ”=4) 
相关 系数 如 图 7-6 所 示 。 


+ R 例 7.8 

if (!require (MASS) ) {install.packages ("MASS") } 

library(MASS) ; data(biopsy) ; str(biopsy) ; biopsy$ID = NULL 
names (biopsy) = c("thick", "u.size", "u.shape", "adhsn", "s.size", 
"hnucl", "chrom", "n.nuc", "mit", "class") 

names (biopsy) ; biopsy.v2 <- na.omit (biopsy) 

y <- ifelse(biopsy.v2$class == "malignant", 1, 0) 
library(reshape2) ; library (ggplot2) 

biop.m «- melt(biopsy.v2, id.var - "class") 

ggplot(data = biop.m, aes(x = class, y = value)) + geom boxplot() 
facet wrap(- variable, ncol - 3) 

if(!require (corrplot) ) {install.packages ("corrplot") } 

library (corrplot) 

bc «- cor(biopsy.v2[ ,1:9]) 

#create an object of the features 

corrplot.mixed (bc) 

set.seed(123) 

ind «- sample(2, nrow(biopsy.v2), 

replace - TRUE, prob - c(0.7, 0.3)) 


train «- biopsy.v2[ind--1, ] 


WOW NW NP USE 


test «- biopsy.v2[ind- 


thick | @ 
0.64 lusize @ @ 
shape 


0.65 | 0.91 |. 


0.49 | 0.71 | 0.69 adhsn 


0.52 | 0.75 | 0.72 | 0.59 |s.size 


:00009 

: 000000 

: 0000000 
2000000090 


0.59 | 0.69 | 0.71 | 0.67 | 0.59 


0.55 | 0.76 | 0.74 | 0.67 | 0.62 | 0.68 


0.53 | 0.72 | 0.72 | 0.6 | 0.63 | 0.58 | 0.67 


-0.8 
0.35 | 0.46 | 0.44 | 0.42 | 0.48 | 0.34 | 0.35 | 0.43 


-1 


图 7-6 ”相关 系数 图 


/大 话 数据 科学 


二 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


> str(test) 

> table(train$class) 

> table(test$class) 

> full.fit <- glm(class ~ ., family = binomial, data = train) 

> summary (full .fit) 

> coef(full.fit) # Ligist 回 归 系 数 

(Intercept) thick u.size u.shape adhsn s.size 
-9.429 0.525 -0.105 0.280 0.309 0.287 
chrom n.nuc mit 
0.274 0.224 0.430 


NOMS NP Gb YY YY SS a ONES YY 


confint (full.fit) + Ligist 回 归 系 数 置 信 区 间 

exp(coef(full.fit)) ; library(car) ; vif(full.fit) 

train.probs «- predict(full.fit, type = "response" 

train.probs[1:5] #inspect the first 5 predicted probabilities 
contrasts (train$class) 

if (!require (InformationValue) ) {install.packages ("InformationValue") 
library (InformationValue) 

trainY «- y[ind--1] ; testy <- y[ind==2] 

confusionMatrix(trainY, train.probs) 

misClassError(trainY, train.probs) 

confusionMatrix(trainY, train.probs) 

test.probs <- predict (full.fit, newdata = test, type = "response" 
misClassError(testY, test.probs) 

confusionMatrix(testY, test.probs) 

if (!require (bestglm)) {install.packages ("bestglm") } 

library (bestglm) 

X «- train[, 1:9] ; Xy «- data.frame(cbind(X, trainY)) 

bestglm(Xy = Xy, IC = "CV", CVArgs = list(Method = "HTF", K = 10, 
REP = 1), family-binomial) 

reduce.fit «- glm(class ~ thick + u.size + nucl, family = binomial, 


data - train) 


nucl 
0.406 


) 


test.cv.probs = predict(reduce.fit, newdata = test, type = "response") 


misClassError(testY, test.cv.probs) 


confusionMatrix(testY, test.cv.probs) 


bestglm(Xy = Xy, IC = "BIC", family = binomial) " um : 
bic.fit <- glm(class ~ thick + adhsn + nucl + n.nuc, 1 362 


family - binomial, data - train) 
test.bic.probs = predict(bic.fit, newdata = test, type = "response") 


misClassError(testY, test.bic.probs) 


0 1 
confusionMatrix(testY, test.bic.probs) 0 138 1 
E 4 66 


7.4.3 ”医疗 保险 数据 


) 和 7 个 变量 ( 列 ) 。 该 数 
据 集 包 含 4 个 数字 特征 《〈 年 龄 、bmi、 小 孩 数目 和 医疗 费用 ) 和 3 个 标 称 特征 性 别 、 吸 烟 和 
居住 地 区 ) 。 目 标 变量 是 医疗 费用 。 

(D age: “FIR; (2) sex: 性 别 “female =1”，“male = 2”; (3) bmi: 身高 体 
重 指数 ， 〈4) children: 小 孩 数 目 ， (5) smoker : 吸烟 Factor 2 levels “no” , “yes” ; 
(6) region: 居住 地 区 Factor 4 levels; (7) expenses: 医疗 费用 

相关 系数 图 如 图 7-7 所 示 ， 特 征 数目 和 CP 值 如 图 7-8 所 示 。 


# R 例 7.9 

if(!require (MASS) ) (install.packages ("MASS")} 

insu <- read.csv("C:/R/insurance.csv", stringsAsFactors = TRUE) 
dim(insu) ; str(insu) ; head(insu) ; summary (insu$expenses) 
hist (insu$expenses, breaks = 30) ; table(insu$region) 


cor(insu[c("age", "bmi", "children", "expenses")]) 


» 
» 
> 
> 
> 
> 
> pairs(insu[c("age", "bmi", "children", "expenses") ]) 
> if (!require (psych) ) {install.packages ("psych") } 

> library(psych) ; library (leaps) 

> pairs.panels(insu[c("age", "bmi", "children", "expenses") ]) 

> ins model «- lm(expenses ~ age + children + bmi + sex + smoker + region, 
+ data = insu) 

> ins model <- lm(expenses ~ ., data = insu) # 结果 同上 

> 


ins model 


Call: 
lm(formula = exhenses ^ ., data = insurance) 


Coefficients: 


(Intercept) age sexmale bmi 
-11942 257 -131 339 
children smokeryes  regionnorthwest  regionsoutheast 
476 23847 -353 -1036 


summary(ins model) 

insu$age2 «- insu$age^2 

insu$bmi30 «- ifelse(insu$bmi >= 30, 1, 0) 

head (insu) 

ins model2 «- lm(expenses ~ age + age2 + children + bmi + sex + 
bmi30*smoker + region, data = insu) 


summary(ins model2) ; pairs(~ ., data = insu) 


Ww Wa Ww UNE 


if (!require (leaps) ) {install.packages ("leaps") } 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 ( T RIBE ) 


fit <- lm(expenses ~ ., data = insu) ; summary (fit) 

sub.fit <- regsubsets(expenses ~ ., data = insu, nbest-1, 
nvmax-dim(insu)[2], method-"exhaustive") 

sub.fit ; sub «- summary (sub.fit) 

sub$which ; sub$rsq ; sub$adjr2 ; sub$Cp 

best.summary <- summary(sub.fit) ; names (best.summary) 
which.min(best.summary$rss) ; par(mfrow = c(1,1)) 

plot (best.summary$cp, xlab = "number of features", ylab = "Cp") 
plot (sub.fit, scale = "Cp") ; which.min(best.summary$bic) 
which.max (best .summary$adjr2) 

fit.step <- step(ins_model, direction="backward") ; summary (fit.step) 
set.seed(100) ; test-sample(seq(1338),100, replace=FALSE) 
test.df- insu[test,] 


V V V VV V VOV VY VY + YY 


pred.step «- predict(fit.step, test.df) ; pred.step 


age F 
0.11 0.04 


e 
Ow 
e 
T 
20 30 40 50 60 


" bmi 
e 
: 0.01 || 0.20 
R 
e eT - di 
—— — children 上 = 
| 0.07 L|. 
8 SENE, expenses 
E b. 
jili: 
3 Y 
E 


os 
N 
w 
» 
wn 


图 7-7 相关 系数 图 


图 7-8 ”特征 数目 和 CP 值 


7.4.4 ”棒球 数据 


igim{stats}, glmnet(gim 
数据 框 格式 : 322 个 观察 数据 〈 行 ) 20 个 变量 〈 列 ) 
(D AtBat; (2) Hits; (3) HmRun; (4) Runs; (5) RBI; (6) Walks; (7) Years; 
(8) CatBat; (9) Chits; (10) ChmRun; (1D Cruns; (12) CRBI; (13) Cwalks; (14) League; 
(15) Division; (16) PutOuts; (17) Assists; (18) Errors; (19) Salary; (20) NewLeague 
回归 系数 如 图 7-9、 图 7-10 所 示 。 


> # 例 7.10 

> if(!require (glmnet)) {install.packages ("glmnet") } 

> if(!require (ISLR) ) {instal1.packages("ISLR") } 

> if(!require (plotmo) ) {install.packages ("plotmo") } 

> library(glmnet) ; library(ISLR) ; library (plotmo) 

» data(Hitters) ; str(Hitters) ; sum(is.na(Hitters)) 

» sum(is.na(Hitters$Salary)) 

> Hitters = na.omit(Hitters) # 删除 缺失 值 GRA) 

> sum(is.na(Hitters)) ; names(Hitters) ;set.seed(1) 

» train-sample(seq(263),180, replace-FALSE) 

> X = model.matrix(Salary ~ ., Hitters)[, -1] ; y = Hitters$Salary 
> fit = Im(Salary ~ ., Hitters)  # 一 般 多 元 回归 

> coef (fit) ; sum(abs(coef(fit) [-1])) ; sum(coef (fit) [-1] ^ 2) 
> par(mfrow = c(1, 1)) ; fit ridge = glmnet(X, y, alpha = 0) 
» plot glmnet (fit ridge) 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) | 


plot glmnet (fit ridge, xvar = "lambda", label = 5) 

fit ridge cv = cv.glmnet (X, y, alpha = 0) 

plot (fit ridge cv) ; coef(fit ridge cv) # 图 7-11 Ridge 回归 
coef(fit ridge cv, s = "lambda.min") 

sum(coef(fit ridge cv, s - "lambda.min")[-1] ^ 2) 

predict(fit ridge cv, X, s = "lambda.min") ; predict(fit ridge cv, X) 
sqrt(fit ridge cv$cvm) ; sqrt(fit ridge cv$cvm[fit ridge cv$ 

lambda == fit ridge cv$lambda.min]) ; fit lasso-glmnet (X,y,alpha = 1) 
plot glmnet (fit lasso) 

plot glmnet (fit lasso, xvar-"lambda", label - 5) 

fit lasso cv - cv.glmnet(X, y, alpha - 1) 

plot(fit lasso cv) ; coef(fit lasso cv) # 图 7-12 Lasso 回归 

coef (fit lasso cv, S = "lambda.min") 

sum (coef (fit lasso cv, S = "lambda.min")[-1] ^ 2) 

predict(fit lasso cv, X, s = "lambda.min") 

predict (fit lasso cv, X) ; mean((y - predict (fit lasso cv, xp ^ 2) 
Sqrt(fit lasso cv$cvm) ; set.seed(100) 

train-sample (seq(263),180,replace-FALSE) 

lasso.tr-glmnet (x[train,],y[train]) ; lasso.tr 
pred-predict(lasso.tr,x[-train,]) ; dim(pred) 

rmse- sqrt (apply((y[-train]-pred)^2,2,mean)) 

plot (log(lasso.tr$lambda),rmse,type-"b",xlab-"Log (lambda) ") 
lam.best=lasso.tr$lambda [order (rmse) [1]] 


lam.best ; coef(lasso.tr,s=lam.best) 


Wow MONUI WR M A a a a A i ae, a CNW CONES UCNE CUNME 


1 T 
(Intercept) 115.377 (Intercept) 199.41811 
AtBat . AtBat 0.09343 
Hits 1.475 Hits 0.38977 
HmRun E HmRun 1.21288 
Runs . Runs 0.62323 
RBI . RBI 0.61855 
Walks 1.657 Walks 0.81047 
Years . Years 2.54417 
CAtBat 。 CAtBat 0.00790 
CHits 。 CHits 0.03055 
CHmRun 。 CHmRun 0.22655 
CRuns 0.166 CRuns 0.06127 
CRBI 0.345 CRBI 0.06338 
CWalks . CWalks 0.06072 
LeagueN P LeagueN 3.74330 
DivisionW -19.244 DivisionW -23.54519 
PutOuts 0.100 PutOuts 0.05620 
Assists . Assists 0.00788 
Errors . Errors -0.16420 
NewLeagueN as NewLeagueN 3,31377 


图 7-9 Ridge 回 归 系 数 图 7-10 ”Lasso 回 归 系 数 
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图 7-11 Ridge 回归 
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/大 语 数 据 科学 
大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


7.4.5 波士顿 房价 数据 


数据 框 格式 data.frame: 506 个 观察 值 ”14 个 变量 

crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, black, lstat, medv 
〈 因 变量 房价 中 位 数 ) 

相关 示意 如 图 7-13 一 图 7-15 所 示 。 


# R 例 7.11 

library(tidyverse) ; library(caret) ; library(glmnet) ; library (plotmo) 
data("Boston", package = "MASS") ; set.seed(123) 

tr «- Boston$medv %>% createDataPartition(p = 0.8, list = FALSE) 

train «- Boston[tr, ] ; test «- Boston[-tr, ] 

x «- model.matrix(medv-., train)[,-1] ; 

y <- train$medv 

lasso - glmnet(x, y, alpha-0) ; plot glmnet(lasso, main-"LASSO") 

ridge = glmnet (x, y, alpha-1) ; plot glmnet (fit ridge, main="Ridge") 
elasticnet = glmnet(x, y, alpha = 0.3) 


V V V V V VV V VY YY 


plot glmnet(elasticnet, main-"Elastic Net") 


Coefficients 


T T T 
8 6 4 2 0 


Log Lambda 


图 7-13 Lasso 
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图 7-14 Ridge 
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图 7-15 Elastic Net 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


Call: gimnet(x = x, y = y, alpha = 1) 


Df sDev Lambda 


[1,] 0 0.00000 6.908000 
[2,] 1 0.09343 6.294000 
[3,] 2 0.18670 5.735000 
[4,] 2 0.26620 5.225000 
[5,] 2 0.33220 4.761000 


+ ”Df 是 自由 度 ， 非 零 的 线性 模型 拟 合 系数 的 个 数 。 
t ”SDev 模 型 解释 的 残 差 的 比例 ， 线 性 模型 拟 合 的 R^2 ( R-squred) o 
* ” ”Lambda 模型 对 应 的 入 值 。 
set.seed(23) ; cv <- cv.glmnet (x, y, alpha = 0) ; cv$lambda.min 
model «- glmnet(x, y, alpha = 0, lambda = cv$lambda.min) 
plot(model, xvar-"lambda", label-TRUE) 
coef(model) ; x.test «- model.matrix(medv -., test)[,-1] 
predictions «- model %>% predict(x.test) %>% as.vector() 
data.frame(RMSE - RMSE(predictions, test$medv), 
Rsquare - R2(predictions, test$medv) ) 
# Lasso regression 
set.seed(123) ; cv <- cv.glmnet(x, y, alpha-1) ; cv$lambda.min 
model «- glmnet(x, y, alpha-1, lambda=cv$lambda.min) ; coef (model) 
x.test «- model.matrix(medv -., test)[,-1] 
predictions «- model %>% predict(x.test) %>% as.vector() 
data.frame(RMSE - RMSE(predictions, test$medv), 

Rsquare = R2(predictions, test$medv)) 
# elastic net regression 
set.seed(123) ; model «- train(medv -., data-train, method-"glmnet", 
trControl - trainControl("cv", number - 10), tuneLength - 10) 
model$bestTune ; coef (model$finalModel, model$bestTune$lambda) 
x.test «- model.matrix(medv ~., test)[,-1] 
predictions «- model %>% predict (x.test) 
data.frame(RMSE - RMSE(predictions, test$medv), 

Rsquare - R2(predictions, test$medv) ) 
# caret::train 
lambda «- 10^seq(-3, 3, length = 100) 
# ridge regression 
set.seed(123) 
ridge «- train(medv -., data = train, method = "glmnet", 
trControl - trainControl("cv", number - 10), 

tuneGrid = expand.grid(alpha = 0, lambda = lambda) ) 
coef (ridge$finalModel, ridge$bestTune$lambda) 
predictions «- ridge %>% predict (test) 
data.frame(RMSE - RMSE(predictions, test$medv), 
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Rsquare - R2(predictions, test$medv) ) 


> # lasso regression: 

> set.seed (123) 

> lasso <- train(medv ~., data = train, method = "glmnet", 
+ trControl = trainControl("cv", number = 10), 

+ tuneGrid = expand.grid(alpha = 1, lambda = lambda) ) 
> coef (lasso$finalModel, lasso$bestTune$lambda) 

> predictions <- lasso %>% predict (test) 

» data.frame(RMSE - RMSE(predictions, test$medv) 

+ Rsquare = R2(predictions, test$medv) ) 

> # Elastic net regression 

> set.seed (123) 

> elastic <- train(medv ~., data = train, method = "glmnet", 
+ trControl = trainControl("cv", number = 10), 

+ tuneLength = 10 ) 

> coef (elastic$finalModel, elastic$bestTune$lambda) 

> predictions <- elastic %>% predict (test) 

> data.frame (RMSE = RMSE(predictions, test$medv), 

+ Rsquare = R2(predictions, test$medv) ) 

> models <- list(ridge = ridge, lasso = lasso, elastic = elastic) 
> resamples(models) %>% summary( metric = "RMSE") 

> # elastic net 的 RMSE 中 位 数 最 小 


7.4.6” 皮 玛 数据 


本 例 对 居住 在 美国 亚利桑那 州 凤凰 城 附近 的 21 岁 以 上 的 印 地 安 皮 玛 (Pima) 妇女 进 
行 糖尿 病 检 测 。 这 些 数据 源 自 美国 国家 糖尿 病 、 消 化 和 肾脏 疾病 研究 所 收集 的 血清 胰岛 素 
数据 。 

l.npreg, 2.Glu, 3.Bp, 4.Skin, 5.Bmi, 6.Ped, 7.Age, 8.type () 

data.frame' : 392 obs. of 9 variables: 


pregnant, glucose, pressure, triceps, insulin, mass, pedigree, age; 


目标 变量 diabetes 因子 两 个 水 平 "neg" " pos" 


# R 例 7.12 

library(tidyverse) ; library (caret) ; library (MASS) 
data("PimaIndiansDiabetes2", package - "mlbench") 

Pima2 «- na.omit(PimaIndiansDiabetes2) ; head(Pima2) 
set.seed(123) 

tr «- Pima2$diabetes %>% createDataPartition(p-0.8, list=FALSE) 
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train «- Pima2[tr, ] ; » test «- Pima2[-tr, ] 
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Sensitivity 


大 数据 与 机 器 学 习 实战 (SFREE) | 


model <- glm( diabetes -., data = train, family = binomial) 
summary (model)$coef ; coef (model) 

prob «- model %>% predict(test, type = "response") 

head (prob) 

predicted.classes «- ifelse(prob » 0.5, "pos", "neg") 
head (predicted.classes) 

mean(predicted.classes -- test$diabetes) 
observed.classes «- test$diabetes 

accuracy «- mean(observed.classes -- predicted.classes) 
accuracy # 正确 率 

error «- mean(observed.classes !- predicted.classes 
error # 错误 率 

+ 混淆 矩阵 

table(observed.classes, predicted.classes) 
table(observed.classes, predicted.classes) %>% 
prop.table() %>% round(digits = 3) 

predicted.classes «- as.factor(predicted.classes) 


observed.classes «- as.factor(observed.classes) 


library(pROC) # Roc 曲线 ， 如 图 7-16 所 示 
res.roc «- roc(observed.classes, prob) 


WM WY 


plot.roc(res.roc, print.auc = TRUE) 


confusionMatrix (predicted.classes, observed.classes, positive = "pos") 
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> roc.data «- data frame(thresholds = res.roc$thresholds, 

+ sensitivity = res.roc$sensitivities, 

+ specificity = res.roc$specificities ) 

> 4 特异 度 大 于 0 .6 BSBHMÉISUE 

> roc.data %>% filter(specificity >= 0.6) 
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plot.roc(res.roc, print.auc - TRUE, print.thres - "best") 
plot.roc(res.roc, print.thres - c(0.3, 0.5, 0.7)) 

glucose «- ifelse(test$glucose « 127.5, "glu.low", "glu.high") 
age «- ifelse(test$age « 28.5, "young", "old") 

roc.data «- roc.data %>% filter(thresholds !--Inf) %>% 
mutate(glucose - glucose, age - age) 

+ 比较 Roc 曲线 ， 图 7-17 

ggplot(roc.data, aes(specificity, sensitivity)) + 

geom path (aes (color = age)) + scale x reverse(expand = c(0,0))+ 
Scale y continuous (expand = c(0,0))+ 

geom abline(intercept = 1, slope = 1, linetype = "dashed") + 


theme bw() 
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图 7-17 ”比较 ROC 曲 线 
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也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


eo 本 章 思维 导 


BUM. 假定 条 件 


实例 计算 ，R 语言 : R 例 7.1，7.2，7.3 


偏 相关 系数 HAARE 


后 退 消除 法 
逐步 回归 | 前 进 选择 法 
变量 (特征 ) 选择 


双向 逐步 回归 法 
| 部 分 子 集 回归 swiss 数据 ，R 例 7.4 


回归 分 析 


| E Mock 编 着 《大 话 数据 科学 》 


Ridge 回归 : R 例 7.5 
压缩 方法 Lasso 回归 : 


| Pen oe 


se 
EERE 
Lo; 


Bus. 假定 条 件 
gistic 逻辑 回归 


参数 估计 : R 例 7.6a 
R stats::lm 


R 包 :: 函 数 


Elastic net 回归 


stats::glm 


股票 Smarket 数据 : R 例 ，7.6, 7.7 


乳腺 癌 病 理 biopsy 数据 : R 例 7.8 42 
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医疗 保险 insurance 数据 : RBI7.9 HS 


棒球 Hitters 数据 : R 例 7.10 
d 
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常言 道 : 远亲 不 如 近邻 ， 休 要 失 了 人 情 。 
一 一 《水 洲 传 。 第 二 十 四 回 》 


相近 的 邻 会 ， 强 如 远方 的 弟兄 。 


一 一 《圣经 。 HR) 


/ 估 话 数据 科学 
也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) | 


学 习 器 


近邻 法 (k-Nearest Neighbors, KNN) 是 机 器 学 习 中 最 简单 易 懂 ， 而 且 是 一 个 懒惰 学 习 
器 、 基 于 实例 学 习 器 和 非 参数 学 习 器 。 


8.1.1 认真 学 习 器 和 懒惰 学 习 器 


贝 叶 斯 分 类 、 决 策 树 、 支 持 向 量 机 、 类 神经 网 络 等 监督 式 学 习 ， 称 为 热切 或 认真 学 习 
器 (eager learner) ， 因 为 这 类 学 习 器 是 认真 地 训练 、 验 证 和 测试 。 

相对 于 认真 学 习 器 ， 当 然 是 懒惰 学 习 器 (lazy learner) ， 就 是 本 章 的 上 近邻 法 (k 
Nearest Neighbor, KNN) ， 简 称 近邻 法 。 懒 惰 学 习 是 没有 利用 训练 数据 集 来 创建 模型 ， 只 
是 测试 集 利 用 和 训练 集 ， 来 评价 和 预测 ， 如 图 8-1 所 示 。 


> tr <-trainControl(method = “cv”, number = 5)#5- oo 
> cvlm <-train(model, data, method = "Im", trControl = 


SA =n ,多 


VICE] aap 训练 集 E 下 验证 集 
> predict( ) 


> 测试 集 


LLL 训练 集 WENT S 
“D 2p. 


预测 
1) ENG 
\ > knn(train, test) e 
图 8-1 认真 学 习 与 懒惰 学 习 


用 知识 转移 的 观念 说 明 机 器 学 习 的 过 程 如 图 8-2 所 示 ， 最 主要 是 抽象 化 和 泛 化 : 
C1) 抽象 化 Cabstraction) : 机 器 学 习 的 建 模 ， 抽 象 化 的 知识 表达 有 数学 公式 、 关 系 
图 (如 网 络 图 、 树 图 ) 、 逻 辑 规则 Gfthen) 、 聚 类 图 。 简 单 地 说 ， 抽 象 化 就 是 建 模 。 


三 


Ü 


(2) ZAE (generalization) : 运用 知识 推广 到 其 他 情景 ， 可 能 用 到 一 些 个 人 的 自由 意 
志 〔 内 隐 知识 ) ， 举 一 反 三 学 习 新 规则 。 机 器 学 习 的 泛 化 是 用 测试 数据 来 验证 模型 ， 简 单 
地 说 就 是 预测 。 


未 知 其 未 知 。 知 其 未 知 。 知 其 所 知 。 。 未 知 其 所 知 E 
共同 化 外 部 化 组 合 化 内 部 化 
了 解 问题 。 数据 了 解 创建 模型 预测 结果 


图 8-2 机 器 学 习 的 过 程 


近邻 法 称 为 懒惰 学 习 ， 因 为 近邻 法 在 抽象 化 〈 建 模 ) 和 泛 化 〈 验 证 ) 方面， 都 不 努 
力 。 所 以 ， 近 邻 法 的 训练 数据 基本 上 没有 训练 ， 所 以 是 懒惰 学 习 。 

但 是 并 非 懒惰 学 习 器 就 是 不 好 ， 近 邻 法 在 某 些 分 类 问题 ， 会 有 相当 好 的 预测 结果 。 

了 R 语 言 函 数 包 train kknn {kknn} 和 train{caret} 分 别 训练 集 和 测试 集 ， 就 不 是 懒惰 学 习 。 


8.1.2 ”基于 实例 学 习 器 


近邻 法 是 基于 实例 (instance based learning) 的 监督 式 学 习 ， 相 对 于 基于 特征 或 属性 的 
学 习 。 基 于 实例 的 监督 式 学 习 是 以 实例 的 距离 或 相似 度 为 衡量 基础 ， 基 本 上 没有 用 数据 建 
立 模 型 (特征 的 公式 ) ， 例 如 回归 模型 是 用 特征 变量 建立 模型 。 所 以 基于 实例 的 监督 式 学 
习 是 “无 参数 学 习 方法 ”， 因 为 没有 从 数据 学 习 到 参数 ， 近 邻 法 的 参数 上 是 控制 实例 个 数 
的 参数 ， 称 为 超 参数 。 从 另外 一 方面 来 说 ， 这 种 基于 实例 学 习 器 是 要 寻找 自然 的 模式 ， 而 
不 是 尝试 将 数据 调适 〈fit) 到 一 个 先入 为 主 可 能 偏 误 的 函数 模型 ， 如 图 8-3 所 示 。 


ppg 二 基于 实例 一 相似 距离 一 了 类 分 析 ， 基 于 用 户 的 推荐 系统 
式 学 习 ”一 频繁 项 目 一 关联 分 析 ， 基 于 项 目的 推荐 系统 
基于 特征 < 变量 相关 __ 降 维 分 析 ， 主 成 分 分 析 


基于 实例 一 -实例 距离 一 -k 近 邻 法 〈 懒 惰 学 习 ) 


(样本 ) 学 习 
E 独立 属性 一 朴素 贝 叶 斯 
个 E E 
(特征 ) BAK" š 
全 部 属性 一 一 多 元 回归 ，Logistic 回 归 


属性 转换 一 一 支持 向 量 机 
图 8-3 ”基于 实例 或 属性 的 学 习 模型 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


8.1.3 ”参数 学 习 器 和 非 参数 学 习 器 


学 习 器 分 为 参数 学 习 器 与 非 参数 学 习 器 : 

O 参数 学 习 器 

统计 学 的 参数 统计 是 : 假定 估计 和 检验 的 变量 是 独立 且 正 态 (高 斯 ) 分 布 ， 而 且 有 
参数 。 

机 器 学 习 的 参数 学 习 要 求 变 量 的 假定 条 件 和 模型 参数 。 算 法 包括 两 部 分 ，@ 选择 目标 
函数 的 形式 ，@ 从 训练 数据 中 学 习 目 标 函 数 的 系数 。 参 数学 习 模型 无 须 大 量 的 数据 。 

(1) 参数 学 习 器 包括 : 

“多 元 回归 (Multiple Regression) : 模型 有 固定 函数 和 参数 (回归 系数 )。 

*XESR[BIH (Logistic Regression) : Logistic 回 归 系 数 。 

。 线 性 判别 分 析 (Linear Discriminant Analysis) : 假定 高 斯 分 布 。 

“朴素 贝 叶 斯 : 自 变量 特征) 是 独立 的 连续 变量 ， 假 定 高 斯 分 布 且 有 参数 (估计 〉。 

(2) 参数 学 习 器 的 优点 : 

(ER: 算法 容易 理解 和 解释 结果 。 

Bus: 参数 模型 学 习 和 训练 的 速度 都 很 快 。 

+ DEBE: 通常 无 须 大 量 的 数据 ， 泛 化 方差 小 。 

(3) 参数 学 习 器 的 局 限 性 : 

AR: 选 定 函 数 形式 的 方式 高 度 限制 模型 。 数 据 要 符合 假定 条 件 。 

“有 限 的 复杂 度 : 通常 只 能 应 对 简单 的 问题 ， 复 杂 问 题 偏差 大 。 限 定 参 数 的 数目 。 

RWE: 实战 中 通常 无 法 匹配 潜在 的 目标 函数 。 

人 @ 非 参数 学 习 器 

对 目标 函数 不 作 过 多 的 假定 的 算法 ， 称 为 非 参数 机 器 学 习 算法 。 通 过 不 作假 设 〈 如 独 
立正 态 ) ， 算 法 可 以 自由 地 从 训练 数据 中 学 习 任 意 形式 的 函数 。 如 果 拥 有 许多 数据 而 先 验 
知识 很 少时 ， 非 参数 学 习 通 常 很 有 有 用， 不 需要 关注 于 参数 的 选取 。 

非 参数 学 习 的 自 变量 〈 特 征 属性 ) 不 需要 假设 特定 的 概率 分 布 。 

非 参 数学 习 没有 从 数据 产生 模型 ， 限 制 了 大 家 了 解 分 类 器 如 何 使 用 数据 ， 也 就 是 说 变 
量 的 解释 能 力 。 

非 参 数学 习 器 在 构造 目标 函数 的 过 程 中 ， 对 训练 数据 做 最 好 的 拟 合 ， 同 时 维持 一 些 泛 
化 到 未 知 数据 的 能 力 。 同 样 的 ， 它 们 可 以 拟 合 各 自 形式 的 函数 。 

非 参 数学 习 器 的 一 个 例子 是 F 近 邻 算法 ， 其 目标 是 基于 个 最 相近 的 模式 对 新 的 数据 
做 预测 。 这 种 方法 对 于 目标 函数 〈 输 出 变量 ) 的 形式 ， 不 作 任何 假设 。 参 数 的 数目 没有 
限定 。 

COD 非 参数 学 习 器 的 例子 有 : 


RA: 是 超 参数 。 
。 决 策 树 Decision Treesk-Nearest Neighbors: 例如 CART 和 C4.5。 
。 支 持 向 量 机 (Support Vector Machines) 。 
(2) 非 参数 学 习 器 的 优势 : 
“RE: 可 以 拟 合 许多 不 同 的 函数 形式 。 
* 8677: 对 于 目标 函数 不 作假 设 或 只 作 微 小 的 假设 。 
“性 能 ;对 于 预测 表现 可 以 非常 好 。 
(3) 非 参数 学 习 器 的 局 限 性 : 
“需要 更 多 数据 : 对 于 拟 合 目标 函数 需要 更 多 的 训练 数据 。 
HER: 因为 需要 训练 更 多 的 参数 ， 训 练 过 程 通 常 比较 慢 。 
HWA: 有 更 高 的 风险 发 生 过 拟 合 ， 对 于 预测 也 比较 难以 解释 。 
* 无 法 作 正 则 化 (regularization) 。 
参数 学 习 器 对 于 目标 函数 做 很 多 的 假设 ， 这 使 得 模型 易于 训练 ， 需 要 的 数据 量 少 ， 同 
时 也 使 得 模型 能 力 有 限 。 
非 参数 学 习 器 对 于 目标 函数 不 作 过 多 的 假设 ， 这 使 得 模型 需要 更 多 的 数据 来 训练 ， 并 
且 模 型 拥有 高 复杂 度 ， 同 时 也 使 得 模型 能 力 很 强 。 


eo 近邻 法 介绍 


最 近邻 居 法 Ck-nearest neighbors， 简 称 上 NN 算 法 或 近邻 法 ) 是 一 种 用 于 分 类 和 回归 的 
方法 。 所 以 ， 近 邻 法 的 目标 变量 可 以 是 因子 变量 (分 类 ) 或 连续 变量 〈 回 归 ) ， 输 入 的 独 
立 变量 是 连续 或 整数 值 ， 可 计算 距离 。 


8.2.4 全 近邻 法 算法 步骤 


左近 邻 法 算法 步骤 : 

COD 设 定 下 值 。 因 为 投票 ，K 值 最 好 是 单数 。 

(2) 已 知 训练 数据 train， 训 练 数据 的 自 变 量 train[，a : b]， 目 标 变量 值 train[，c]; 
测试 数据 test， 测 试 数据 的 自 变量 test[，a : b]， 目 标 变量 值 未 知 。 

a: b= 自 变 量 a 到 自 变量 b。 

G) 对 测试 数据 到 所 有 的 训练 数据 的 实例 ， 计 算 其 距离 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


dist (test[i, a: b], train[j a: bp 

(4) 在 这 些 距离 中 ， 找 出 个 最 小 的 距离 。 

G) 大 个 最 小 的 距离 对 应 的 实例 的 目标 变量 值 ， 若 为 分 类 ， 则 其 “多 数 ” 为 测试 数据 
的 目标 变量 值 ， 若 为 回归 ， 则 其 “均值 ”为 测试 数据 的 目标 变量 值 。 

(6) 若 测 试 数据 已 知 目标 变量 值 ， 则 评价 其 误差 ， 分 类 用 混淆 矩阵 ， 回 归 用 均 方差 。 

如 图 8-4 所 示 。 


变 
量 
Y 


测试 数据 A 
了 eS, -A 


图 8-4 ”NN 近邻 法 分 类 


8.2.2 ”全 近邻 法 分 类 器 


在 上 NN 近 邻 法 分 类 中 ， 输 入 是 特征 和 分 类 〈 因 子 ) 的 目标 变量 ， 输 出 是 一 个 分 类 结 
果 。 一 个 对 象 的 分 类 是 由 其 邻居 的 “多 数 表决 ”决定 的 ，k 个 最 近邻 居中 最 常见 的 分 类 决 
定 了 赋予 该 对 象 的 类 别 。 若 上 = 1， 则 该 对 象 的 类 别 直 接 由 最 近 的 一 个 样本 点 赋予 ， 如 图 8-5 
所 示 。 


图 8-5 天 近邻 法 分 类 


大 近邻 法 的 缺点 是 对 数据 的 局 部 结构 非常 敏感 。 

大 越 大 ， 目 标 函 数 越 平 滑 ， 方 差 越 小， 偏差 越 大 ， 从 拟 和 。 

大 近邻 法 分 类 ， 概 念 是 相同 类 别 的 实例 ， 彼 此 的 距离 近 相 似 度 高 ， 借 由 计算 与 已 知 类 
别 实 例 之 相似 度 ， 来 评估 未 知 类 别 实例 可 能 的 分 类 。 

“多 数 表决 ”分 类 会 在 类 别 分 布 偏 斜 时 出 现 缺陷 。 也 就 是 说 ， 出 现 频 率 较 多 的 样本 将 
会 主导 测试 点 的 预测 结果 。 解 决 这 个 缺点 的 方法 之 一 是 在 进行 分 类 时 将 样本 到 k 个 近邻 点 的 
距离 考虑 进去 。k 近 邻 点 中 每 一 个 的 分 类 (对 于 回归 问题 来 说 ， 是 数值 》 都 乘 以 与 测试 点 之 
间距 离 的 呈 反 比 的 权重 。 

衡量 邻居 的 权重 都 非常 有 用 ， 使 较 近 邻居 的 权重 比较 远 邻 居 的 权重 大 。 例 如 ， 一 种 常 
见 的 加 权 方 案 是 给 每 个 邻居 权重 赋值 为 1 4， 其 中 4 是 到 邻居 的 距离 。 

在 二 元 〈 两 类 ) 分 类 问题 中 ， 选 取 / 为 奇数 有 助 于 避免 两 个 分 类 平 票 的 情形 。 

噪声 和 非 相关 性 特征 的 存在 ， 或 特征 尺度 与 它们 的 重要 性 不 一 致 会 使 4 近邻 法 的 准确 性 
严重 降低 。 在 第 4 章 聚 类 分 析 ， 也 是 基于 实例 的 学 习 法 ， 计 算 距 离 要 注意 特征 变量 的 尺度 ， 
有 必要 将 特征 变量 加 以 标准 化 或 归 一 化 ， 请 见 4.2.2 节 。 

对 于 选取 和 缩放 特征 来 改善 分 类 ， 虽 然 无 法 作 正 则 化 ， 但 可 以 做 降 维 分 析 。 


8.2.3 人 -近邻 法 回归 
在 上 近邻 法 回归 中 ， 输 出 是 该 对 象 的 实数 值 。 该 值 是 其 k 个 最 近邻 居 的 目标 值 的 平均 


值 。 选 择 k 值 越 小 ， 会 导致 越 大 的 预测 方差 ， 产 生 过 拟 合 。 选 择 k 值 越 大 ，k- 近 邻 法 回归 的 曲 
线 会 越 平滑 ， 会 导致 越 大 的 预测 误差 〈 偏 差 ) ， 产 生 欠 拟 合 ， 如 图 8-6 所 示 。 


图 8-6 天 近邻 法 回归 及] 与 大 4 


/大 语 数 据 科学 


大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


如 何 选 择 一 个 最 佳 的 x 值 取决 于 数据 。 一 般 情况 下 ， 在 分 类 时 较 大 的 K 值 能 够 减 小 噪声 
的 影响 ， 但 会 使 类 别 之 间 的 界线 变 得 模糊 。R 语 言 包 caret 可 以 调 参 ， 进 行 超 参数 优化 。 


8.2.4 自 变量 是 分 类 变量 


大 近 邻 法 是 计算 自 变量 的 距离 ， 所 以 自 变量 应 该 是 连续 数值 变量 。 如 果 自 变量 是 分 类 
变量 ， 需 改 为 虚 似 变量 。 自 变量 是 分 类 变量 有 5 个 因子 ， 就 要 改 为 5 个 虚 似 变量 。 

如 果 回 归 模 型 有 截 距 项 ， 就 有 m 种 互 斥 的 属性 类 型 ， 在 模型 中 引入 m-1 个 虚拟 变量 。 

R 语言 的 kNN 函数 可 以 自动 解决 分 类 变量 的 问题 。 


® 近邻 法 的 优点 和 缺点 | 


O 近邻 法 的 优点 

(1) 简单 而 且 有 效 。 

(2) 容易 解释 ， 容 易 实践 。 

(3) 数据 参数 不 需要 有 假定 条 件 〈 变 量 分 布 和 独立 ) 。 
(4) 可 以 做 分 类 和 回归 。 


n 


(5) 可 


[以 做 多 元 分 类 。 


(6) 数据 量 大 时 ， 较 朴素 贝 叶 斯 (NB) 准确 ， 但 是 计算 时 间 和 成 本 高 。 

OQ 近邻 法 的 缺点 

(1) 因为 是 懒惰 学 习 ， 没 有 给 出 一 个 模型 来 了 解 特征 变量 和 目标 变量 的 影响 。 所 以 每 
次 有 新 的 测试 数据 ， 就 要 重新 再 计算 距离 。 

(2) 需要 选择 适当 的 k。 若 已 经 计算 一 个 测试 数据 和 训练 数据 的 距离 ， 可 以 改变 不 同 
的 k， 预 测 分 类 或 回归 的 结果 。 

(3) 大 型 数据 需要 大 量 存储 器 和 计算 。 

(4) 分 类 型 特征 变量 和 遗失 值 需要 更 多 的 处 理 。 

(5) 目标 变量 数值 不 平衡 ， 处 理 结果 会 不 好 。 

(6) 很 多 特征 变量 的 处 理会 很 辛苦 。 

(7) 分 类 结果 很 难 转换 为 分 类 概率 ， 如 朴素 贝 叶 斯 方法 。 


8.4.1 食材 数据 


数据 FVP 


数据 框 格式 :16 个 样本 观察 值 4 个 变量 食材 xı x2 Y 
1 carrot 7 10 V 
2 celery 3 10 V 
> * R 例 8.1 3 green bean 2 7 V 
> FVP «- read.csv("C:/R/FVP.csv") 4 cucumber 4 6 V 
> FVP$Y <- as.factor(FVP$Y) > D. T Y 
6 bacon 1 4P 
> # YX : v= 蔬菜 ，P = BAR, F= KR 7 soybean 3 5 P 
> FVP. #X1 = 甜 度 ，X2= 脆 度 s ee Se 
9 cheese 2 1P 
> par (mfrow-c(1,1)) 10 fish 4 1P 
> plot (X2~X1,data=FVP, 11 banana 9 1F 
* 12 7 3F 
+ pch=ifelse (FVP$Y=="V",1,3)) 13 oar 10 9F 
text(FVPSXl, FVP$X2, rownames (FVP), pos=4) 14 grape 8 SF 
15 apple 9 9F 

won 
text (6,4,"2") 16 ce S 


kn <- knn(train-FVP[1:15, 2:3] ,test- c(6,4),FVP[1:15,4], k-2) 
row.names (FVP) [attr (kn, "nn.index")] 


如 图 8-7 所 示 
[1] "12" "s" 


> 
> 
> library (FNN) 
> 
> 


v 


kn <- knn(train-FVP[l:15, 2:3] ,test- c(6,4),FVP[1:15,4],k=3) 
> row.names (FVP) [attr (kn, "nn.index")] 
> # 如 图 8-7 所 示 
[ll taam nge oas 
> kn <- knn(train-FVP[1:15, 2:3] , test= FVP[16,2:3],FVP[1:15,4], k-4) 


> row.names (FVP) [attr (kn, "nn.index")] 
[1] "12" "S" "i4" "a4" 


» options (digits-3) 
» kn 


[1] F 
attr(,"nn.index") 

L1] L2] [,3] [41 
[1,1 12 5 14 4 
attr(,"nn.dist") 

L1] L2] L3] [,41 
[1,] 1.41 2 2.24 2.83 
Levels: F 


/ 估 话 数据 科学 
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了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 
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图 8-7 ”结果 与 数据 


8.4.2 ” 营 尾 花 数 据 


数据 框 格式 ，150 个 样本 观察 值 5 个 变量 


V V V V V V V VV VV VV VN VY Y 


knn(FNN 


# R 例 8 .2 

if (! require (kknn) ) {install.packages ("kknn") } 
if (! require (PROC) ) (install.packages ("pROC") } 
if(!require(class))[(install.packages ("class") } 


if (! require (caret) ) {install.packages ("caret") } 


library (caret) ; library (kknn) ; library (class) ; library (pROC) 


data (iris3) 

train <= rbind(rris3[1i30,.,1], irzs3[1:30,,2], i1x153]1:30,,31) 
test «- rbind(iris3[31:50,,1], iris3[31:50,,2], iris3[31:50,,3]) 
el x- factor(c(rep("s",30), rep("c",30), repi("v",30))) 

c2 «- factor(c(rep("s",20), rep("c",20), rep("v",20))) 

knnl «- knn(train, test, cl, k = 3, prob-TRUE) 
attributes(.Last.value) ; tab «- table(knnl, c2) 
sum(tab[row(tab)--col(tab)])/sum(tab) ; tab 

+ 测试 数据 2 

train <= tr le àiri153[1:25,,2], 1€153[1:25,,;3]) 
test «- rbind(iris3[26:50,,1], iris3[26:50,,2], iris3[26:50,,3]) 


gel <= ftaector(ctirap(i" a^, 25), rep("6c",;25), sep("v*,25)) 


> 
> 
2 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
2 
d 
> 
> 
> 
= 
> 
> 
> 
> 
> 
$ 
+ 
> 


knn2 <- knn(train, test, cl, k = 1, prob=TRUE) 
attributes(.Last.value) ; tab «- table(knn2, cl) 
sum(tab[row(tab)--col(tab)])/sum(tab) ;tab 

交叉 验证 LOOCV 


train <=: rbind(iris3],,l], iris3[,,;2], ifis3[,.,31) 


el <- factor(c(rep("s",50), rep("c",50), rep("v",50))) 
knn3.cv «- knn.cv(train, cl, k = 3, prob = TRUE) 

tab «- table(knn3.cv, cl) 
sum(tab[row(tab)--col(tab)])/sum(tab) ; tab 

* 训练 kNN 

Data «- iris ; set.seed(12345) ; Sample <- sample(1:150, 50) 
test «- Data[Sample, ] ; train «- Data[-Sample, ] ; dim(Data) 


knn «- train.kknn(Species ~ ., data-train, kmax-10) ; knn 


pred «- predict(knn, test[, -5] pred 

pred setosa versicolor virginica 
setosa 15 0 0 

CN <- table(test[, 5], pred) versicolor 0 14 1 

CM virginica 0 0 20 


accuracy <- (sum(diag(CM) ) ) /sum(CM) 
accuracy ; plot(knn) 
# kNN 训练 调 参 
if (!require (caret) ) (install.packages ("caret") } 
gridl <- expand.grid(.k = seq(2, 20, by = 1)) 
control = trainControl (method = "cv") 
set.seed(100) 
knn.train «- train(Species ~ ., data = train, method = "knn", 
trControl = control, tuneGrid = gridl) 
knn.train 
knn.test <- knn(train[, -5], test[, -5], train[, 5], k = 17) 
table(knn.test, test$Species) 
set.seed (123) 
kknn.train <- train.kknn(Species ~ ., data = train, kmax = 25, 
distance = 2, 
kernel = c("rectangular", "triangular", "epanechnikov") ) 


kknn.train ; plot (kknn.train) 


如 图 8-8 所 示 


> 
> 


kknn.pred «- predict(kknn.train, newdata = test) 
table (kknn.pred, test$Species) ; kknn.pred 


/ 估 话 数据 科学 


之 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 
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图 8-8 k 值 与 错误 率 


8.4.8 ”乳癌 检查 数据 


数据 框 格式 ，569 个 样本 观察 值 ”32 个 变量 


> 
> 
> 
> 
> 
> 
> 
+ 
> 
> 
> 
> 
+ 
= 
> 


+ R 例 8.3 
if (!require (gmodels)) {install.packages ("gmodels") } 
if (! require (class) ) {install.packages ("class") } 
library(gmodels) ; library(class) 
wbcd «- read.csv("C:/R/wisc bc data.csv", stringsAsFactors = FALSE) 
str(wbcd) ; wbcd <- wbcd[-1] ; table (wbcd$diagnosis) 
wbcd$diagnosis «- factor(wbcd$diagnosis, levels = c("B", "M"), 
labels = c("Benign", "Malignant")) 

round(prop.table(table(wbcd$diagnosis)) * 100, digits - 1) 
summary (wbcd[c ("radius mean", "area mean", "smoothness mean")]) 
# create normalization function 
normalize «- function(x) { 

return ((x - min(x)) / (max(x) - min(x))) } 
# normalize the wbcd data 


wbcd n <- as.data.frame (lapply (wbcd[2:31], normalize)) 


No WMUOM P VM UON OM o VON M. VU VM te Vv VY Mo - VY VV + Mo oV MOM NOM OM 


# confirm that normalization worked 
summary (wbcd n$area mean) 
# create training and test data 
wbcd train <- wbcd n[1:469, ] ; wbcd test <- wbcd n[470:569, ] 
# create labels for training and test data 
wbcd train labels <- wbcd[1:469, 1] ; 
wbcd test labels «- wbcd[470:569, 1] 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
cl = wbcd train labels, k = 21) 
CrossTable(x = wbcd test labels, y = wbcd test pred, 
prop.chisq - FALSE) 
wbcd z <- as.data.frame (scale (wbcd[-1])) 
summary (wbcd z$area mean) 
wbcd train <- wbcd z[1:469, ] ; wbcd test «- wbcd z[470:569, ] 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
Cl = wbcd train labels, k = 21) 
CrossTable(x = wbcd test labels, y = wbcd test pred, 
prop.chisq = FALSE) 
wbcd train <- wbcd n[1:469, ] ; wbcd test <- wbcd n[470:569, ] 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
cl = wbcd train labels, k-1) 
CrossTable(x = wbcd test labels, y = wbcd test pred, prop.chisq-FALSE) 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
Cl - wbcd train labels, k-5) 
CrossTable(x - wbcd test labels, y - wbcd test pred, prop.chisq-FALSE) 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
cl = wbcd train labels, k-11) 
CrossTable(x = wbcd test labels, y = wbcd test pred, prop.chisq-FALSE) 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
cl = wbcd train labels, k-15) 
CrossTable(x - wbcd test labels, y - wbcd test pred, prop.chisq-FALSE) 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
cl - wbcd train labels, k-21) 
CrossTable(x = wbcd test labels, y = wbcd test pred, prop.chisq-FALSE) 
wbcd test pred «- knn(train = wbcd train, test = wbcd test, 
cl = > wbcd train labels, k-27) 
CrossTable(x = wbcd test labels, y = wbcd test pred, prop.chisq-FALSE) 


/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Total Observations in Table: 100 


1 
wbcd test labels | Benign | Malignant | Row Total | 
oc IRSE od ee eg es ep ee eee 
Benign | 61 | 0 1 61 | 
I 1.000 | 0.000 | 0.610 | 
1 0.938 | 0.000 | 1 
1 0.610 | 0.000 | 1 
SSS 和 
Malignant | 4 | 35 | 39 | 
OH Contents 1 0.103 1 0.897 | 0.390 | 
| ------------------------- 1 1 0.062 | 1.000 | 1 
1 NI I 0.040 | 0.350 | 1 
1 i) hw Total ——————————— SS SS —_——— 1 
1 N / Col Total | Column Total | 65 | 35 | 100 | 
1 N / Table Total | 1 0.650 | 0.350 | 1 
1 1 1 


数据 框 格式 data.frame: 1524 个 观察 值 ( 总 统 候选 人 ) ”14 个 变量 


* R 例 8.4 

if(!require(caret) ) {install.packages ("caret") } 

library(caret) ; library(el071) ; library (ROCR) 

datal = read.csv("C:/R/US Presidential Data.csv") ; head(datal 
datal$Win.Loss = as.factor(datal$Win.Loss) ; set.seed(101) 
index = createDataPartition(datal$Win.Loss, p = 0.7, list = F) 
train = datal[index,] ; validation = datal[-index,] 


dim(train) ; dim(validation) 


> 

> 

> 

> 

> 

2 

> 

= 

> names(train) ; head(train) ; head(validation) 

> levels(train$Win.Loss) <- make.names (levels (factor (train$Win.Loss) )) 
> levels(validation$Win.Loss) <- 

+ make.names (levels (factor (validation$Win. Loss) )) 
> set.seed (1234) 

> x = trainControl(method = "repeatedcv", number =10, repeats = 3, 
+ classProbs = TRUE , summaryFunction = twoClassSummary) 
> modell <- train(Win.Loss~. , data=train, method="knn", preProcess= 
+ c("center","scale"), trControl = x, metric = "ROC", tuneLength = 10 
> modell ; plot (modell) 

图 8-9 
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图 8-9 kí GROC 


k ROC Sens Spec 
5 0.836 0.690 0.841 
7 0.847 20.668 0.849 
9 0.853 0.659 0.853 

11 0.853 0.654 0.860 

13 0.853 0.653 0.868 

15 0.851 0.649 0.861 

17 20.849 0.641 0.856 

19 0.847 0.627 20.861 

21 0.844 0.615 0.864 

23 20.842 20.604 0.871 


> valid pred <- predict (modell,validation, type = "prob") 
> pred val «-prediction (valid pred[,2],validation$Win.Loss) 
> perf val <- performance (pred val, "auc") ; perf val 

> perf val <- performance (pred val, "tpr", "fpr") 

> plot(perf val, col = "red", lwd = 1.5) 

# 图 8-10 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 
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图 8-10 ROCHHER 


8.4.5 ”玻璃 数据 


5 S <knn{kknn} 
数据 框 格式 data.frame: 214 个 观察 值 104 48 
> + R 例 8.5 
> if(!require (kknn) ) {install.packages ("kknn") } 
> library(kknn) ; data(glass) ; glass <- glass[,-1 
> (fit.glassl <- train.kknn(Type ~ ., glass, kmax = 
+ c("triangular", "rectangular", "epanechnikov", " 
* distance - 1)) 
> (fit.glass2 «- train.kknn(Type ~ ., glass, kmax = 
* c("triangular", "rectangular", "epanechnikov", 


+ distance = 2)) 
> 4 distance- Parameter of Minkowski distance. 
= 


plot (fit.glass1) ; plot (fit.glass2) 


如 图 8-11 所 示 。 


08 10 


1 
15, kernel 
optimal"), 


15, kernel 


"optimal"), 


0.36 


misclassification 
030 032 034 


0.28 


0.26 


0.36 


misclassification 
0.32 0.34 
1 
$x 


0.30 
1 
Ld 
* 


0.28 
1 
> 
x 


T T T T T T T 
2 4 6 8 10 12 14 


k 
图 8-11 kk 值 与 错误 率 


8.4.6 波士顿 房价 数据 


[ R 例 8.6 ] 数据 Boston, BAX train(caret] 
美国 波士顿 地 区 的 房价 数据 
数据 框 格式 data .frame: 506 个 观察 值 14 个 变量 


crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, black, Istat, medv 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 Ri 语言 ) 


〈 因 变数 房价 中 位 数 ) 
> 4 R 例 8.6 
> library (tidyverse) ; library (caret) 
> data("Boston", package = "MASS") ; set.seed(123) 
> tr «- Boston$medv %>% createDataPartition(p-0.8, list-FALSE) 
» train «- Boston[tr, ] ; test «- Boston[-tr, ] 
» model «- train(medv-., data - train, method - "knn", 
+ trControl = trainControl("cv", number = 10), 


preProcess - c("center","scale"), tuneLength - 10 ) 
plot (model) ; model$bestTune # 图 8-12 
pred «- model %>% predict (test) 


V MM + 


head (pred) ; RMSE (pred, test$medv) 
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图 8-12 k 值 与 RMSE 


8.4.7” 皮 玛 数 据 


[ R 例 8.7 ] 数据 Pima2， {caret} 
本 例 对 居住 在 美国 亚利桑那 州 凤凰 城 附近 的 21 岁 以 上 的 印 地 安 皮 玛 (Pima) 妇女 进行 
糖尿 病 检 测 。 这 些 数据 源 自由 美国 国家 糖尿 病 、 消 化 和 肾脏 疾病 研究 所 收集 的 血清 胰岛 素 


数据 。 
1.npreg，2. Glu，3. Bp，4. Skin，5. Bmi，6. Ped，7. Age，8. type( 目 标 变量 ) 
data.frame' : 392 obs. of 9 variables: 
pregnant, glucose, pressure, triceps, insulin, mass, pedigree, age, 


diabetes Factor w/ 2 levels “neg” , " pos" : 


> # R 例 8.7 

> library(tidyverse) ; library (caret) 

» data("PimaIndiansDiabetes2", package - "mlbench") 

» Pima2 «- na.omit(PimaIndiansDiabetes2) ;  set.seed(123) 

> tr «- Pima2$diabetes %>% createDataPartition(p-0.8, list-FALSE) 

> train «- Pima2[tr, ] ; test «- Pima2[-tr, ] ; set.seed(123) 

> model «- train(diabetes ~., data = train, method = "knn", 

+ trControl = trainControl("cv", number = 10), 

+ preProcess = c("center","scale"), tuneLength = 20 ) 

> plot (model) ; model$bestTune 

> predicted.classes «- model %>% predict (test) 

» head(predicted.classes) 

» mean(predicted.classes -- test$diabetes) 

1818-13 
M 1 1 1 1 L 
0.770 F 


0.765 


0.760 E 


Accuracy (Cross-Validation) 
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Ejs-13 k 值 与 正确 率 


/大 语 数 据 科 学 
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ESNBYIRE (BFR) | 


eo 本 章 思维 导 图 | 


JL [基于 实例 学 习 


参数 和 非 参数 学 习 


大 近邻 法 算法 步骤 
万 近邻 法 分 类 -投票 (单数) 
大 近邻 法 回归 -平均 
自 变量 是 分 类 变量 


优点 与 缺点 ”近邻 法 优点 


、 4 FNN::knn 
近邻 法 R caret::train(knn) 
b R 包 :: 函 数 kknn::train.kknn 


class::knn 
e1071::train 
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USP 数 据 : R 例 8.4 su 


玻璃 glass 数 据 : REISS ha 


波士顿 房价 Boston 数 据 : R 例 8.6 
皮 玛 Pima? 数 据 : R 例 8.7 
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凡 战 者 ， 以 正 合 ， 以 奇 胜 。 奇 正 相 生 ， 如 循环 之 无 端 ， 就 能 穷 之 哉 ! 
一 一 《孙子 兵法 。 兵 势 》 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


贝 叶 斯 公式 


贝 叶 斯 公式 (Bayesian rule) 通常 用 在 将 验 前 概率 (prior probability) 修改 为 验 后 概率 
(posterior probability) 。 如 果 将 事件 A RIFE (AREE) ， 将 事件 B 称 为 现象 〈 特 
征 、 表 象 或 证 据 ) 。 已 知 本 质 的 概率 〈 验 前 概率 ) ， 和 从 本 质 看 现象 的 条 件 概率 似 然 概率 
(likelihood probability) ， 则 要 计算 从 现象 〈 特 征 ) 看 本 质 〈 目 标 ) 的 条 件 概率 〈 验 后 概 
率 ) 。 例 如 有 病 GHE) 是 本 质 ， 检 验 结果 阳性 是 现象 ， 已 知 癌症 的 概率 〈 验 前 概率 ) = 
P (癌症 ) ， 和 癌症 的 检验 结果 是 阳性 的 条 件 概率 〔 似 然 概率 ) = P( 阳 性 | 癌症 ) ， 贝 叶 
斯 公式 则 要 计算 ， 检 验 结果 阳性 会 是 癌症 的 概率 〈 验 后 概率 ) =P CORRE | BATE) © 

贝 叶 斯 公式 最 重要 是 区 别 哪个 事件 是 本 质 ， 哪 个 事件 是 现象 ， 如 图 9-1 所 示 。 例 如 有 
肺病 〈 本 质 ) 的 验 前 概率 ， 与 抽烟 (现象 得 肺病 的 验 后 概率 。 用 《孙子 兵法 》 来 解释 ， 
“ 正 ” 是 胜 负 ， 是 本 质 ，“ 奇 ”是 现象 。 估 计 本 质 的 验 前 概率 P〈 本 质 ) 和 似 然 概率 P〈 现 
象 | 本 质 ) ， 然 后 计算 P〈 本 质 | 现象 ) ， 这 就 是 透 过 现象 看 本 质 。 (请 见 《 大 话 统计 学 》 
5.771) © 


SEB GRR, 证 据 ) 发 生 


事件 4 (本 质 , 目标 ) 计算 验 后 概率 
已 知 验 前 概率 P (A), PCA) P(4|B), P CA|B) 


已 知 (估计 ) 条 件 概率 ( 似 然 概率 ) 
P(B\A), P BID) 
图 9-1 贝 叶 斯 公式 应 用 概念 图 (1) 


贝 叶 斯 公式 ， 若 事件 A 与 事件 B 为 同一 样本 空间 的 事件 ， 且 P(B)z0， 
P(B|A)P(A) 
P(B|A)P(A)+P(B|4)P(A) 
nr Al BE x (APA 

niu g CEH) R3 LEER 

在 监督 式 学 习 ， 有 特征 变量 的 是 自 变量 ， 有 目标 变量 的 是 因 变 量 。 所 以 ， 特 征 变量 是 
表象 ， 目 标 变量 是 本 质 ， 就 是 分 类 的 结果 。 

如 图 9-2 所 示 朴 素 贝 叶 斯 分 类 是 基于 个 别 属 性 的 监督 式 学 习 ， 其 优势 在 于 只 需要 根据 少 
量 的 训练 数据 和 个 别 的 变量 ， 就 可 以 建立 分 类 器 模型 。 所 谓 “ 朴 素 ” 是 变量 独立 的 假定 ， 


WW: P(4|B)= 


斯 分 类 


只 需要 估计 各 个 特征 变量 的 似 然 概率 ， 而 不 需要 确定 整体 特征 变量 的 关系 如 协 方差 。 
特征 变量 X 数 值 (表象 , 奇 ) 发 生 


目标 变量 7 (本 质 , 分 类 , IEG 计算 验 后 概率 
已 知 验 前 概率 P( 正 ) , P CO P OW) , P ERD 
已 知 数据 似 然 概 率 透 过 现象 看 本 质 


P (RIE) , PXI 


图 9-2 贝 叶 斯 公式 应 用 概念 图 (2) 


e 贝 叶 斯 分 类 


9.2.1 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 (Naive Bayes classifier) ， 朴 素 (naive) 是 假定 特征 变量 是 相互 独 
立 的 。 
BEHREX,. X, X, ， 目 标 变量 7 是 分 类 变量 因子 C,C,,…,C, 有 r 个 水 平 。 

如 果 特 征 变量 的 值 是 书 x. X, x X, x, WARRE Y EDK Y = C 的 概率 是 : 
P(Y 2 C,1X, 2x,X, 2x, X, =x,) 
| P(Y - G)P(X, x, X, 2 x, X, 2x, IY =G) 
g P(X, 2 x.X, 2x, X, =x,) 
所 以 我 们 要 找 出 一 个 分 类 C, 使 上 述 概率 最 大 : 
P(I-G)b(Xi-45 X EE) 
P(X, 2x.X, 3, X, - x) 

BY P(X, = xX, 25. X, =x,) AC, ERA DU E I TO BE X X E 
Y = C, 是 朴素 独立 : 

e =argmax {P(Y =C,)P(X, 2xj|Y-G)-P(X, =" IY =¢)}} 


C, =argmax 
G 


6 cpm PY = Tex, =x,|Y= c) 
i P 


C, BER ESE REEL, = x, X, x, X, = 的 目标 变量 Y 的 分 类 。 
验 前 概率 PCD DU BOR PCA) VE PER Js RPAN MRI- 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) ] 


表 9-1 验 前 概率 P( 了 ) 与 似 然 概率 P(X| Y) 计算 验 后 概率 PY | X) 


PO AX IEC) PQG-X,Y-C,) PEX) 
PXC) PQC-X4[Y-C,) PAX YC) 
Y=1 y=1 Y 
PO-Xjr-c) | PORAIFEC,) POL-X]Y-C) 


CIR BEERS, EERS, 特征 值 表象 并 
P PASXI) |  POpXpr-o) PearO) 


贝 叶 斯 Max, P(Y-C) X P(X =X Y2C) X PQGRX)|Y-C) X ++ X POCzX,[Y-C) 


Riff 7m<-naiveBayes(Y~., data)Bkm<-naiveBayes(Y~X,+X,+++++X,, data) 
pred<-predict(m, newdata)ml--train(X, y, 'nb') 


9.2.2 ”特征 值 是 连续 变量 


假定 特征 值 是 正 态 分 布 的 连续 变量 和 ，X,，X，， 目 标 变 量 Y 是 分 类 因子 A, B, C= 
类 ， 测 试 值 x ，x,，x 的 朴素 贝 叶 斯 分 类 结果 。 

CD 计算 验 前 概率 P(4)，P(B)，P(C)。 

(2) 计算 : 

A 类 的 钱 均 值 j,，B 类 的 五 均值 jw，C 类 的 天 均值 jc; 

A 类 的 ,均值 j,,，B 类 的 X, 均 值 js，C 类 的 X, 均 值 we: 

A 类 的 ,均值 /,,，B 类 的 X, 均 值 /ss，C 类 的 ,均值 /wc; 

A 类 的 五 标准 差 oo BEHI X, PREZ Ogo CASI X, PREZ Oc: 

A 类 的 ,标准 差 o,, ，B 类 的 ,标准 差 oc,。 ，C 类 的 ,标准 差 cc; 

A 类 的 了 ,标准 差 c,，B 类 的 已 标准 差 cp ，C 类 的 ,标准 差 o,。。 

G) 定义 了 (XX,|7Y=i) 的 高 斯 ( 正 态 ) 条 件 概率 密度 函数 值 : 


2 
-(x -u 
P(x, 14) = N(x,14.05) - rr 


JA 


P(x, =i ls) isnt) eren Ete 


P(s. s 18 =)= T] 4)-TI ze 
(4) P(A|x, x,.x,) oc P(4)P (x | 4) PCx, | 4) P(x; | 4) 
P(B|x,.x,,x,) c P(B)P(x, | B)P(x,| B)P(x,1B) 


z0: BGs 


P(C x, x, BS) P(C) P(x, |C) P(x, IC) P(x Ic) 
P(Y =i|x.~.x,)=argmax P(Y =) [Tf (s) 


(5) C,-arg max P(C,)P(x.x,,3,|C,)- max P(C,)P(x,|C)) P(x,|C;) 


Ge{4.8.C} Ge{4.8.C} 


P(x,|€,) 
9.2.3 ”朴素 贝 叶 斯 分 类 的 优点 和 缺点 


O 朴素 贝 叶 斯 分 类 的 优点 

(1) 简单 容易 解释 ， 计 算 快速 有 效率 ， 计 算 结 果 效 果 很 好 。 

(2) 对 于 有 噪声 或 遗失 值 ， 也 能 处 理 很 好 。 

(3) 适合 很 大 数量 的 数据 。 

O 朴素 贝 叶 斯 分 类 的 缺点 

(1) 特征 变量 是 相等 重要 ， 而 且 是 独立 (朴素 ) 的 ， 但 是 对 于 这 个 假定 条 件 不 满足 ， 
朴素 贝 叶 斯 分 类 的 分 类 结果 还 是 相当 好 (稳健 )。 

(2) 如 果 数 据 的 记录 实例 相当 少 ， 有 些 现象 的 似 然 概 率 等 于 0， 就 要 用 拉 普 拉 斯 校准 。 

(3) 数据 集 有 很 多 连续 数值 型 特征 变量 ， 结 果 会 不 很 理想 。 

(4) 朴素 贝 叶 斯 分 类 预测 的 验 后 概率 是 相对 概率 ， 相 对 于 其 他 本 质 的 验 后 条 件 概率 ， 
不 能 当 作 真 正 的 概率 。 

(5) 朴素 贝 叶 斯 仅 适 用 于 分 类 ， 不 适用 于 回归 。 


eo 贝 叶 斯 分 类 的 实例 计算 


9.3.1 天 气 和 打 网 球 


根据 天 气 来 决定 是 否 打 网 球 ， 为 了 简化 计算 输入 ， 定 义 变量 代号 如 下 。 
特征 变量 : 

了 多 = 天 气 因子 ， 其 水 平 是 A= 晴 天 、B = 阴 天 、C = 雨天 ; 

也 = 温度 因子 ， 其 水 平 是 D= 热 天 、E = 适中 、F= 冷 天 ; 

且 = 湿 度 因 子 ， 其 水 平 是 G= 高 、H= 正 常 ; 

了 = 风速 因子 ， 其 水 平 是 I= 弱 、J= 强 。 

目标 变量 : 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


Z= 是 否 打 球 ， 分 类 因子 Y= 是 、N= 否 。 
以 上 问题 可 以 改 为 


特征 变量 为 : 眼睛 的 状况 ， 目 标 变量 为 : 是 否 配 隐形 眼镜 。 
特征 变量 为 : 银行 顾客 的 条 件 ， 目 标 变量 为 : 是 否 准许 借贷 。 


打球 数据 如 表 9-2 所 示 。 
39-2 打球 数据 NB.csv 
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1 A 
2 A 
3 B 
4 C 
$ € 


» 


Mete ll 


a 
> 


ix 
o 
+ 
^ 
-|-|-|- 
zZ|z|« 


打球 数据 转换 成 Excel 表 ， 如 图 9-3 所 示 。 


» 
w 
1a 
c 
m 


1X X) X3 X |Z 
2A D G I N 
34 D G J N 
4B D G I Y 
5 C IE | |I |Y 
6c F m I Y 
7C F lH J N 
8B F H J Y 
9A E G I N 
104 F H I Y 
jc |e lH |I ly 
12A E H J Y 
13B E G J Y 
14B D H I Y 
15|c E G J N 
164 D G I N 


图 9-3 ”打球 数据 Excel 格 式 


Aziz zz 


z0: EULZE 


9.3.2 ” 验 前 概率 与 似 然 概率 


在 《大 话 统计 学 》5.7 节 贝 叶 斯 公式 有 计算 步骤 表 。 朴 素 贝 叶 斯 分 类 的 计算 用 表 9-3 可 
以 比较 清楚 的 计算 。 
表 9-8. 验 前 概率 P(2Z) 与 似 然 概率 PAZA) 


fos oe [oe [oe [nue [oe [|e |e] 
EICIEEICIEJEIEICIEI 


请 问 : WA XAR, VFR, J3-GiJ ES. XAAR. ARTT? 
P(Z-N|X1- AX2- F,X3-G,X4-J)- P(N | A,F,G,J) 
6 4153 


P(N)P(A|N)P(F|N)P(G|N)P(J| N) 3 —x—x—x-x—-0.0185 

x P(N)P(4|N)P(F|N)P(G|N)P(JIN)= 1,3. 

L2 00185 ^ 49 

(0.0185 + 0.0049) 

P(Z=Y|X1=4,X2=F,X3=G,X4=J)=P(Y|4,F.G,J) 

« P(¥)P(A|Y)P(F|Y)P(G|Y)P(J |¥)=—-x2 3x3 x3=0,0049 
159999 

209049 gy, 

(00185+0.0049) 


P(N|4.F,G,J)>P(Y|4.F,G,J)， 所 以 不 要 打球 : Z= N。 
请 问 : 现象 刀 =B 阴 天 ， 了 =D 热 天 ， 如 -了 H 湿 度 正常 ，X4-I 风 速 弱 ， 是 否 适合 打球 ? 
P(Z-N|XI- B,XY2- D.X3- H.XA- I) - P(N|B,D.H.I) 

6.03 1.3. 


« P(N)P(BIN)P(DIN)P(HIN)PIIN)- rx cx x exc 0 


因为 P(B1N) 没 有 出 现 ， 计 算 的 验 后 概率 为 0， 要 用 拉 普 拉 斯 校准 。 


9.3.3 拉 普 拉 斯 校准 


拉 普 拉 斯 校准 (Laplace correction) ， 又 称 拉 普 拉 斯 估计 、 拉 普 拉 斯 平滑 ， 就 是 对 没有 
出 现 似 然 概 率 的 分 类 所 有 划分 的 计数 增加 一 个 较 小 的 数 〈 同 时 每 个 类 别 的 合计 数 也 会 相应 
增加 ) ， 通 常情 况 下 数值 设 定 为 1， 即 保证 每 一 类 的 特征 组 合 至 少 在 数据 中 出 现 一 次 。 这 样 
做 的 目的 在 于 当 训 练 样本 集 数量 充分 大 时 ， 并 不 会 对 结果 产生 影响 ， 同 时 又 解决 了 概率 为 0 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


FI JL Jes TE o 
验 前 概率 P(2) 与 人 然 概率 P(x|2) 如 表 9-4 所 示 。 
表 9-4 验 前 概率 P(Z) 与 似 然 概率 P(XilZ) ( 2 ) 


请 问 : WA XI=BPAK, X2=DAWK, XZ-HMEREIE HW, XIKER, FEATHER? 


P(Z - N|XI- B.X2- D,X3- H,X4- I)- P(N|B,D,H.I) 

x P(N)P(BIN)P(DIN)PQH IN) PU IN) - x xoc 00025 
P(Z -Y |X1- B,X2- D.X3- H.XA- I)-- P(Y |B.D.H.I) 

$5 4 qo. 

—X x x x = 

6 2 2 i i 
P(N|4,F,G,J)<P(Y|4,F,G,J)， 所 以 可 以 打球 : Z-Y. 


«xP(Y)P(BIY)P(DIY)P(HIY)P(IIY)= 


9.3.4 R 语言 实例 计算 


ayes{e1071}、train{caret} 


数据 框 格 式 dada.frame : 15 个 观察 值 5 个 变量 Xl1,，X2,X3,X4, Z 


# R 例 9.1 

if (! require (e1071) ) {install.packages ("e1071")} 

if (! require (caret) ) {install .packages ("caret") } 

if (!require (klaR) ) {install .packages ("klaR")} 

if (!require (ggplot2) ) {install.packages ("ggplot2") } 

library(el071) ; library(caret) ; library(klaR) ; library (ggplot2) 
NB = read.csv("C:/R/NB.csv", header=T) 

edit(NB) + 关闭 窗口 ， 继 续 

(ml «- naiveBayes(Z ~ . , data = NB)) 

(pred <- predict (ml, NB)) 


VV V V VV VV VM ON 


(m2 «- naiveBayes(Z - . , data - NB, laplace-1)) 


#08 


> # ml 朴素 贝 叶 斯 分 类 ( 表 9-3) *om2 拉 普 拉 斯 校准 =1 ( 表 9-4) 

A-priori probabilities: A-priori probabilities: 

Y Y 
N € N Y 

0.4 0.6 0.4 0.6 

Conditional probabilities: Conditional probabilities: 
x1 xi 

Y A B c Y A B c 
N 0.6666667 0.0000000 0.3333333 N 0.5555556 0.1111111 0.3333333 
Y 0.2222222 0.4444444 0.3333333 Y 0.2500000 0.4166667 0.3333333 
x2 x2 

Y D E F Y D E F 
N 0.5000000 0.3333333 0.1666667 N 0.4444444 0.3333333 0.2222222 
Y 0.2222222 0.4444444 0.3333333 Y 0.2500000 0.4166667 0.3333333 
x3 x3 

Y G H Y G H 
N 0.8333333 0.1666667 N 0.7500000 0.2500000 
Y 0.3333333 0.6666667 Y 0.3636364 0.6363636 
x4 x4 

= I J Y I J 
N 0.5000000 0.5000000 N 0.5000000 0.5000000 
Y 0.6666667 0.3333333 Y 0.6363636 0.3636364 


» (m3 «- NaiveBayes(Z - . , data - NB)) 

> x = NB[,-5] 

> y = NB$Z 

> (m4 = train(x,y, 'nb')) 

> tab <- table(NB$Z, pred, dnn = c("Actual", "Predicted")) 
» 


confusionMatrix (tab) 


Confusion Matrix and Statistics 


Predicted 

Actual N Y 
NS1 
Yos 

Accuracy : 0.9333 

95% CI : (0.6805, 0.9983) 
No Information Rate : 0.6667 
P-Value [Acc » NIR] : 0.01941 


Kappa : 0.8571 
Mcnemar's Test P-Value : 1.00000 


» (pre «- predict(m4,x)) ; table(pre, y) 
> NBtest = read.csv("C:/R/NBtest.csv",header-T) ; NBtest 
» (predict(m4, NBtest)) 


> m5 = train(x,y,'nb',trControl-trainControl (method-'cv',number-10)) 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 Ri 语言 ) 


9.2 ] 性 别 数据 Gender.csv， 
数据 框 格式 : 8 个 观察 值 4 个 变量 
身高 Height， 体 重 Weight， 鞋 子 尺寸 Footsize， 性 别 Gender 


> # R 例 9.2 

> if (!require (klaR) ) {install.packages ("klaR") } 
> library (klaR) 

> NB = read.csv("C:/R/Gender.csv", header=T) 


[Height |Weight |Footsize|Gander | 
| iss lsaz [sł |w | 
| 2 [i181 [es fas [u | 
| sl | — |so [j — 


edit (NB) 
str(NB) 

x = NB[,-4] 

Y NB$Gender 


model - train(x,y, 'nb') 


model 


pred «- predict (model, x) 


VV V VM VM OM 


table(pred, y) 


naiveBayes{e1071}、c DataPartition(caret) 


# R 例 9.3 

if (! require (e1071) ) {install.packages ("e1071")} 

library(el071) ; library(caret) 

ep «- read.csv("C:/R/EP.csv") ; edit(ep) 

set.seed(1000) 

train.idx «- createDataPartition(ep$Purchase, p-0.67, list = FALSE) 
epmod«-naiveBayes (Purchase-., data = ep[train.idx,]) ; epmod 
pred«-predict (epmod, ep[-train.idx,]) 

tab«-table (ep[-train.idx, ]$Purchase, pred, dnn=c ("Actual", "Predicted")) 


M Ww ow NE A n i 


tab ; confusionMatrix (tab) 


Confusion Matrix and Statistics 


Predicted 
Actual No Yes 
No 1 1 
Yes 0 2 
Accuracy : 0.75 
95% CI : (0.194, 0.994! 
No Information Rate : 0.75 
P-Value [Acc » NIR] : 0.738 
Kappa : 0.5 


Mcnemar's Test P-Value : 1.000 


Sensitivity 
Specificity 

Pos Pred Value 

Neg Pred Value 
Prevalence 
Detection Rate 
Detection Prevalence 
Balanced Accuracy 


m 
o 
o 
o 


'Positive' Class : No 


[ R 例 9.4 】 泰 坦 尼克 号 数据 Titanic.csv， 函 数 { 包 }: naiveBayes(e1071). train(caret). 


NaiveBayes{klaR}、plot{klaR} 


# R 例 9.4 
if(!require (e1071)) {install.packages ("e1071")} 
library(el071) ; data(Titanic) ; str(Titanic) 


countsToCases «- function(x, countcol = "Freq") { 


T VM MM 


idx <- rep.int(seq len(nrow(x)), x[[countcol]]) 

x[[countcol]] «- NULL + x[idx, ] ) 
caseTita«-countsToCases (as.data.frame (Titanic)) 
head(caseTita) ; nrow(caseTita) ; set.seed(100) 
(ml <- naiveBayes (Survived ~ ., data = caseTita)) 


pred «- predict(ml, caseTita[sample(1:2201,10,replace-FALSE),]) 


VW yv My Ov + 


predict (ml, caseTita[sample(1:2201,10,replace-FALSE),],type-"raw") 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


m2 <- naiveBayes(Survived ~ ., data = Titanic) ; m2 

p = predict(m2, caseTita) ; table(p, y) 

if (!require (caret) ) {install.packages("caret")} ; library (caret) 
x<-caseTita[,-4] ; y«-caseTita$Survived 

m3 «- train(x, y, 'nb', trControl- trainControl (method- 'cv', 
number-10)) 

m3 


predict (m3$finalModel,caseTita[sample(1:2201,10,replace-FALSE),])$class 


V MM t MON 2 OM 


table (predict (m3$finalModel,x)$class, y) 


9.4.2 SEÉSE 


函数 { 包 }: NaiveBayes(klaR). plot{klaR} 
# R 例 9.5 
if (! require (e1071) ) (install.packages ("e1071")} 


if (! require (klaR) ) {install.packages ("klaR") } 

library (e1071) ; library (klaR) ; library (caret) ; data (iris) 
(m1 <- naiveBayes (Species ~., data=iris)) 

(m2 <- naiveBayes(iris[,-5], iris[5])) 

(m3 <- predict (ml,iris)) 

pairs(iris[1:4], main-"Iris Data(red-setosa, green-versicolor, 
blue-virginica)", pch-21, 

bg=c ("red", "green3", "blue") [unclass (iris$Species)]) 

x = iris[,-5] ; y = iris$Species 

m4 = train(x,y, 'nb',trControl-trainControl (method- 'cv',number=10) ) 
m4 ; predict (m4$finalModel, x) 

table (predict (m4$finalModel, x)$class,y) 

m5 <- NaiveBayes(iris$Species ~ ., data = iris) 

m5 # iris[5] 是 iris 数据 的 第 5 个 变量 因 变量 Species 苔 尾 花 种 类 

# 条 件 概率 ( 似 然 概率 ) 是 4 个 自 变量 在 因 变量 3 个 分 类 下 的 均值 与 标准 偏差 

# 这 四 个 条 件 概率 图 和 例 3. 6 的 iris 的 密度 图 相同 ，scale RAKE 

plot (m5) 

table (predict (m4$finalModel, x)$class,y) 

set.seed(100) 


iris obs - nrow(iris) 

iris idx = sample(iris obs, size = trunc(0.50 * iris obs)) 

# iris index = sample(iris obs, size = trunc(0.10 * iris obs)) 
iris trn = iris[iris idz, ] 


iris tsE = iris|-iris idx, | 


VV V VV V VV VV VV VV VV VY Xt FV VV VY NON OM 


caret::featurePlot(x = iris trn[, c("Sepal.Length", "Sepal.Width", 


V WV MV - VoM VMN VM OV be ee 0v be + 


ss 


"Petal.Length", "Petal.Width")], y - iris trn$Species, 
plot = "ellipse", auto.key = list(columns = 3)) 
caret::featurePlot(x = iris trn[, c("Sepal.Length", "Sepal.Width", 
"Petal.Length", "Petal.Width")], y - iris trn$Species, 
plot = "box", scales = list(y = list(relation = "free"), 
x = list(rot = 90)), layout = c(4, 1)) 
iris nb = naiveBayes (Species ~ ., data = iris trn) ; iris nb 
head(predict(iris nb, iris trn, type = "raw")) 
iris nb trn pred - predict(iris nb, iris trn) 
iris nb tst pred - predict(iris nb, iris tst) 
calc class err - function(actual, predicted) ( 
mean(actual != predicted) } 
calc class err(predicted - iris nb trn pred, actual - iris trn$Species) 
calc class err(predicted - iris nb tst pred, actual - iris tst$Species) 


table(predicted - iris nb tst pred, actual - iris tst$Species) 


如 图 9-3 所 示 。 


Iris Data (red=setosa, green=versicolor, blue=virginica) 


20 25 30 35 40 05 10 15 20 25 
a 
2 
" 
Sepal.Length . 
3 
a 
3 
~ 
© 
© 
- 
° 
" 
Petal.Width 


45 55 65 75 1234567 


图 9-3 ” 昔 尾 花 数 据 相关 系数 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


A-priori probabilities: 
iris[5] 
setosa versicolor virginica 
0.3333333 0.3333333 0.3333333 


Conditional probabilities: 


Sepal.Length 
iris[5] {,1] [,2] 
setosa 5.006 0.3524897 


versicolor 5.936 0.5161711 
virginica 6.588 0.6358796 


Sepal.Width 
iris[5] [1] t,21 
setosa 3.428 0.3790644 


versicolor 2.770 0.3137983 
virginica 2.974 0.3224966 


Petal.Length 
iris[5] L1] [2] 
setosa 1.462 0.1736640 


versicolor 4.260 0.4699110 
virginica 5.552 0.5518947 


Petal.Width 
iris[5] [,1] [,2] 
setosa 0.246 0.1053856 


versicolor 1.326 0.1977527 
virginica 2.026 0.2746501 


y 
setosa versicolor virginica 
setosa 50 0 0 
versicolor 0 47 3 
virginica 0 3 47 


9.4.3 垃圾 邮件 数据 


函数 { 包 }: tm map{tm}, wordcloud{wordcloud} 

数据 框 格式 data.frame: 5355 个 观察 值 (电子 邮件 ) ”2 个 变量 
(1) type: spam 垃圾 邮件 ，ham 正常 邮件 ，〈2) text: 邮件 内 容 
* R 例 9.6 


if (!require (tm) ) {install.packages ("tm") } 


if (!require (SnowballC)) (install.packages ("SnowballC")] 
if(!require (wordcloud) ) {install.packages ("wordcloud") } 
if (!require (RColorBrewer) ) {install.packages ("RColorBrewer") } 


library(tm) ; library(SnowballC) ; library (wordcloud) 


VM MM OMM ON 


library(RColorBrewer) ; library(el071) ; library (gmodels) 


*oWoR o VON vs VM VV VV VV oh te No. ee VON Mo Vo Vo V MY VY VY MV oV VY NON VY oV OM OUO OM 


*9s 


sms <= read.csv("C:/R/sms spam.csv", stringsAsFactors = FALSE) 
str(sms) ; sms$type <- factor (sms$type) 

# ham = 正常 邮件 spam = 垃圾 邮件 

str(sms$type) ; table(sms$type) 


sms VC «- VCorpus (VectorSource (sms$text)) 

print(sms VC) ; inspect (sms_VC[1:2]) 

as.character(sms VC[[1]]1) ; lapply(sms VC[1:2], as.character) 
sms VC clean <- tm map(sms VC, content transformer (tolower) ) 
as.character(sms VC[[1]]) ; as.character(sms VC clean[[1]]) 
sms VC clean «- tm map(sms VC clean, removeNumbers) 
sms VC clean «- tm map(sms VC clean, removeWords, stopwords()) 
sms VC clean «- tm map(sms VC clean, removePunctuation) 
removePunctuation ("hello...world") 

replacePunctuation «- function(x) ( gsub("[[:punct:]]+", " ", x) } 
replacePunctuation ("hello...world") 

wordStem(c("learn", "learned", "learning", "learns")) 
sms VC clean «- tm map(sms VC clean, stemDocument) 
sms VC clean «- tm map(sms VC clean, stripWhitespace) 
lapply(sms VC[1:3], as.character) 

lapply(sms VC clean[1:3], as.character) 

sms dtm «- DocumentTermMatrix(sms VC clean) 

sms dtm2 «- DocumentTermMatrix(sms VC, control = list(tolower = TRUE, 
removeNumbers = TRUE, stopwords = TRUE, removePunctuation = TRUE, 
stemming = TRUE)) 

sms dtm3 «- DocumentTermMatrix(sms VC, control - list( 
tolower - TRUE, removeNumbers - TRUE, 

stopwords = function(x) ( removeWords(x, stopwords()) }, 
removePunctuation = TRUE, stemming = TRUE)) 

sms dtm ; sms dtm2 ; sms dtm3 

sms dtm train «- sms dtm[1:4000, ] 

sms dtm test <- sms dtm[4001:5355, ] 

sms train labels «- sms[1:4000, ]$type 

Sms test labels <- sms[4001:5355, ] $type 

prop.table (table (sms train labels) ) 

prop.table(table(sms test labels)) 

wordcloud(sms VC clean, min.freq - 60,scale - c(3, 0.5), 
random.order - FALSE) 


Spam <- subset(sms, type == "spam") 

ham <- subset(sms, type -- "ham") 
wordcloud(spam$text, max.words = 50, scale = c(4, 1), 
random.order - FALSE) 

wordcloud(ham$text, max.words = 50, scale = c(3, 0.5), 


random.order - FALSE) 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


如 图 9-4 所 示 。 
around someon 
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go mobi in Won 
pai wait garec iako repli much award 
neip Phegtife tore oneneed sorri find taik 
s sue say time Will Esend "27 snis, 
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& = miss comenow loveask sleep 
ea sv teljuSst like stipe" 
win lear © E 
night KNOW, ay whope s§ 
E" ir wantget oO vo om 2$ 
= pls see free O © sgve SP 
noms. dont gOOdtnink Pwellysan Zate 
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Cb) 垃圾 邮件 词 云图 Ce) 正常 邮件 词 云图 


图 9-4 邮件 词 云图 


sms dtm freq train <- removeSparseTerms (sms dtm train, 0.999) 
sms dtm freq train ; findFreqTerms (sms dtm train, 50) 

sms freq words «- findFreqTerms (sms dtm train, 5) 

str(sms freq words) 

sms dtm freq train «- sms dtm train[ , sms freq words] 

sms dtm freq test «- sms dtm test[ , sms freq words] 

convert counts «- function(x) (x «- ifelse(x > 0, "Yes", "No") } 


Ed 


sms train <- apply(sms dtm freq train, MARGIN = 2, convert counts) 
sms test <- apply(sms dtm freq test, MARGIN = 2, convert counts) 
sms classifier «- naiveBayes(sms train, sms train labels) 

sms test pred «- predict(sms classifier, sms test) 


CrossTable(sms test pred, sms test labels, prop.chisq - FALSE, 


+ VVVVVVM VV VM MOY 


prop.t = FALSE, prop.r = FALSE, dnn = c('predicted', 'actual')) 


» sms classifier2 «- naiveBayes(sms train, sms train labels, laplace - 1) 
» sms test pred2 «- predict (sms classifier2, sms test) 
» CrossTable(sms test pred2, sms test labels, 
+ prop.chisq = FALSE, prop.t = FALSE, prop.r = FALSE, 
+ dnn = c( ‘predicted’, ‘actual’ )) 
| actual 
predicted | ham | spam | Row Total | 
co) 
ham | 1167 | 
1 0.996 | 
一 一 一 一 一 一 一 一 一 一 一 一 一 l 一 一 一 一 一 一 一 一 一 一 一 1 =---------- 
spam | 51 
1 0.004 | 
一 一 一 一 一 一 一 一 一 一 一 一 一 1 -----------— 1 一 一 一 一 一 一 一 一 一 一 一 
Column Total | 12172 ] 
1 0.865 | 
1 1 


对 居住 在 美国 亚利桑那 州 凤凰 城 附近 的 21 岁 以 上 的 印 地 安 皮 玛 Pima 妇 女 的 糖尿 病 检 
测 。 这 些 数据 是 由 美国 国家 糖尿 病 、 消 化 和 肾脏 疾病 研究 所 收集 的 血清 胰岛 素数 据 。 
data.frame : 392 obs. of 9 variables: 1. pregnant 2. glucose 3. pressure 4. triceps 


5. insulin 6. mass 7. pedigree 8. age 9. diabetes 
目标 变量 diabetes 因子 两 个 水 平 “neg”，“pos” 


# R 例 9.7 

library(tidyverse) ; library(caret) ; library("klaR") 
data("PimaIndiansDiabetes2", package - "mlbench") 

Pima2 «- na.omit(PimaIndiansDiabetes2) ; str(Pima2) ; set.seed(100) 
train «- Pima2$diabetes %>% createDataPartition(p = 0.8, list = FALSE) 
train.data <- Pima2[train, ] ; test.data «- Pima2[-train, ] 

model <- NaiveBayes (diabetes ~., data = train.data) 

model # klaR : NaiveBayes 模型 

predictions <- model %>% predict (test.data) 

mean(predictions$class == test.data$diabetes) 4 预测 正确 率 
set.seed(100) $ 交叉 验证 模型 


model <- train(diabetes -., data = train.data, method - "nb", 


trControl = trainControl("cv", number = 10)) 
model # caret : train("nb", "cv") 模型 
predicted.classes «- model %>% predict (test.data) 
mean(predicted.classes -- test.data$diabetes) 4 预测 正确 率 


VV Me ww VM OV OW OK ON ON ON VY OW Ww 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


e 本 章 思维 导 图 | 


奇 (现象) 发 生 
正 ( 本 质 ) P( 正 ) | 验 后 概率 P ( 正 | 奇 ) 

似 然 概率 P ( 奇 | 正 ) ” 透 过 现象 看 本 质 “本 质 : 目标 变量 验 前 概率 

贝 叶 斯 公式 | 从 本 质 看 现象 ， 似 然 概率 

| 从 现象 看 本 质 ， 验 后 概率 


朴素 : 特征 变量 独立 


ESENES 
pope T 111 
pope [T_T TJ 


朴素 贝 叶 斯 分 类 


验 前 与 似 然 概 率 表 


^ 


贝 叶 斯 分 类 


R 


R 包 :: 函 数 


e1701::naiveBayes 
klaR::NaiveBayes 


caret::train 


打球 NB 数据 : R 例 9.1 cy 
性 别 Gender 数据 ，R 例 92 i Ag] 3 


购买 EP 数据 : R 例 93 AN 


泰坦 尼克 号 Titanic 数据 : R 例 9.4 
SEA iris 数据 : R 例 9.5 


垃圾 邮件 sms_spam 数据 : R 例 9.6 & 


皮 玛 Pima2 数据 : R 例 9.7 
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决策 树 
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森林 内 的 两 条 分 又 路 ， 我 选择 了 人 迹 罕 至 的 一 条 ， 从 此 一 切 变 得 不 一 样 。 


一 一 佛 洛斯 特 Robert Frost 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实 研 (基于 R 语 言 ) 


Q 决策 树 概述 


决策 树 (decision tree) 是 一 个 树 状 表 示 逻 辑 的 决策 过 程 ，“ 划 分 和 征服 ”或 “分 而 治 
之 ” (divide and conquer) 的 过 程 。 决 策 树 有 : 

(1) 根 节点 Gootnode) : 决策 树 的 开始 。 

(2) DZA (branch node) : 分 支 就 是 要 选择 一 个 属性 或 特征 ， 分 支点 是 内 部 节点 。 

(3) 内 部 节点 Gnternal node) : 包括 根 节点 和 分 支点 ， 若 是 决策 树 ， 取 观察 样本 的 
多 数 。 

(4) 叶 节 点 〈leaf node) 或 终点 (terminal node) : 决定 因 变 量 的 分 类 标签 或 回归 数 
值 ， 若 是 决策 树 ， 取 观察 样本 的 多 数 ， 若 是 回归 树 ， 取 观察 样本 的 均值 。 


10.1.1 图 形 表示 


决策 树 的 图 形 表示 如 图 10-1 所 示 。 


Xa | XK>a AXXa | Xa 
根 节点 
AX,&a, X, Sa, X, Sa, X, Sa, ax 
| | 内 部 节点 | | 内 部 节点 
了 ba 
Y=y, Yy, Y=y, PN 
Y-0 Fl Y=1 Me Tien =] 
(n=5) (n=6) (n=3) Xa, 叶 节 点 叶 节 点 Ye, Ý, 
(b) 回归 树 
十 0.8 .8 
0.6 SEA 
0.4 
2 
(a) 分 类 树 


图 10-1 决策 树 的 图 形 


10.1.2 ”逻辑 表示 


决策 树 的 逻辑 表示 : 

[1] root 

[2] X, <a, 

[3] X, <a, :Y - 0(n- S.err - 0.2) # 1= 实 例 数 目 ，er 一 错误 率 
[4] X; >a, :Y =1(n =6,err 20.33) 

[5] X, >a, 

[6] X, <a, :Y =1(n=3,err=0) 

[7] X, »a, 

| [8] X; <a,:¥ =0(n=4,err =0.25) 

| [9] X, 7 aà,:Y 2 1(n 2 7,err 20.14) 

Number of inner nodes: 44 AMA (1) [2]. [5], [7) 

Number of terminal nodes: 5 & 叶 节 C£) A ([3], [4], [6], [8], [9D 


10.1.3 ”规则 表示 


决策 树 的 规则 表示 : 

if X, <a, and X, <a, then Y -0 
if X, <a, and X, >a, then Y -1 
if a, < X, <a, then Y -1 

if X, >a, and X, <a, then Y -0 
if X, >a, and X, >a, then Y -1 


10.1.4 数学 公式 表示 


分 类 树 的 数学 公式 表示 ， 
Y="0° Ies xu] V Does ioa] 
回归 树 的 数学 公式 表示 : 


Y = Vl xen su) + Vola aoa) + Ys 


Ties xe) EUNT: 


BW T up i "O" Ton>a ou] 


{a<X<as} 


I, L I, 


fure: + adios a] + Vs! Gros doa) 


Te snas] =f X,<a,,.X, <a, 


I =0if X, >a, or X, >a, 


9a X392) 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 RR 语言 


决策 树 的 信息 计算 


10.2.1 信息 计算 


信息 计算 是 为 了 要 做 决策 树 的 分 枝 ， 要 选择 决策 树 的 分 枝 ， 计 算 特 征 变 量 的 信息 ， 选 
择 信息 增益 最 大 的 特征 变量 ， 作 为 决策 树 的 分 枝 。 

fa SEER Centropy) FAR, WERE, DEERE I, Wat EK 
Hg. Bla, HME, TERA, PALER ASH 1。 如 果 有 人 告诉 你 ， 这 枚 
EPAD AERE, FREES 0. Alka Aa 1-0-1. 

所 以 ， 信 息 增益 (Information Gain) 就 是 信息 的 价值 (value of information) . 

如 图 10-2、 表 10-1 所 示 。 


实例 特征 变量 目标 变量 
ID A B eee Z 
1| A Boo € 
2 
5 || Ay, Be cs & 
n | A, B ç = G 
言 息 |Info (A) Info(B) … Info (Z) 
信息 增益 |Gain(A) Gain(B) … | =Info(Z) —Info(A) 
Mox 或 Info (Z) — Info (B) 


图 10-2 ”决策 树 的 信息 增益 


表 10-1 特征 属性 A 的 分 枝 信息 
Gain (A) =|=Info (Z ) 
-Info (A) 
yy a) 
Info(Aj-Info(a,, *, a4]) 


Info(A,)=Info({a,,» *…, ay) 
Info(Z)=Info([S,, =; SJ) 


a = FHE A E BIRRE C, 的 实例 数目 。 
为 了 方便 起 见 ， 公 式 log =log,， 即 logx=log,x=(logio x)/0.301 。 


10.2.2 85158 


(1) $W Centropy) 是 一 个 系统 混乱 程度 的 度量 。 如 果 一 个 系统 有 个 状态 ， 每 个 状态 
的 概率 是 p i=l -k Ep =l, KEARSE: 
Ent(p,. Pa p,) =—>.,,P, log p, =-p; log p, — p, log p, —…— p, log p, 
Ent(0.5,0.5)= -2 x 0.5log (0.5) = -2 x0.51og, (0.5)=1 
Ent(0.1,0.9)= -0.1 log, (0.1) —0.9 x log, (0.9) = 0.469 
Ent(0,1)= —0 x log, (0)-1xlog, (1) =0 
PRAM EF, fa OR) 最 大 ， 混 乱 程度 最 大 。 
两 个 分 类 确定 只 有 一 个 分 类 发 生 ， 信 息 OB) 是 0。 
(2) 如 果 状 态 分 成 两 类 ， 一 类 有 a 个 实例 ， 另 一 类 有 了 个 实例 ， 其 信息 是 : 


Info([o.])- Em.) 


G) 如 果 状 态 分 成 三 类 ， 分 别 有 a 个 实例 ，5b 个 实例 ，c 个 实例 ， 其 信息 是 : 
= a b e 
Into([a.sc]) -Em[ arpa] 
(4) 特征 值 4 对 应 目标 变量 个 分 类 ， 分 别 有 [au,a>,….,ax] 个 实例 ， 其 信息 是 : 


u 一 ay ate ar 
Info( 4) = Info([a,.2,.---.a,]) En 21 ; "o 


Info(4)-— “1 tog{ St) - "ete — "ig t J--EL e (2 


i 


(5) 特征 变量 4 (AP) 分 类 (分 枝 ) 对 应 目标 变量 ， 有 有 4,i=1,…,h ， 其 信息 是 : 
Info( A) = X mp(4) 
(6) 训练 数据 对 应 目标 变量 Z， 分 类 C,i=1,…,k 概 率 是 p,,i=1,…,k， 其 信息 是 : 


S, S; 
Info(Z) os -XL aee xJ- Ent(p,. Pos Px ) a -5p log, P: 


10.2.3 ”信息 增益 


特征 变量 4 (因子 ) 分 枝 的 信息 增益 (Information Gain) 是: 
Gain(A)= Info(Z)- Info( 4) 
AP: 信息 增益 可 作为 分 枝 的 准则 ， 信 息 增益 越 大 ， 则 该 特征 越 适合 作 分 枝 特征 ;，Z 是 上 
一 个 节点 的 信息 。 


/大 语 数 据 科学 


也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


10.2.4 信息 增益 比 


(1) 特征 变量 4 的 分 枝 信息 CSplit Information) Æ: 


Split nfo(4) = Ito([ 2,7,1) =- Zoe 2) 
(2) 特征 变量 4 的 信息 增益 比 〈Information Gain ratio) 是 : 
.. Gain(4) 

SR( )= Spi Info( 4) 
信息 增益 比 可 作为 分 枝 的 准则 ， 信 息 增益 比 越 大 ， 则 该 特征 越 适合 作 分 枝 特征 
10.2.5 基尼 系数 与 基尼 增益 


如 图 10-3 所 示 。 


0.5 1 
P 


Ell0- 454E 
CD 训练 数据 Z， 特 征 变量 4， 特征 值 的 基尼 系数 是 : 
Gini(Z)=1- 37, p? 


cwi(4)i- X (3 


Gini( 4) =), Gini(A) 
特征 变量 4 的 基尼 系数 是 分 枝 属性 的 不 纯度 。 
(2) 特征 变量 4 的 基尼 增益 (Gini Gain) 是 : 


AGini( A) = Gini(Z) — Gini( 4) 


| 基尼 增益 可 作为 分 枝 的 准则 ， 基 尼 增 益 越 大 ， 则 该 特征 越 适 合作 分 枝 特 征 。 


10.2.6 卡 方 统计 量 


TODA Y^ Ca. S, 如 表 10-1 所 示 ) : 


卡 方 统计 量 可 作为 分 枝 的 准则 ， 卡 方 统计 量 越 大 ， 特 征 值 的 差异 越 大 ， 则 该 特征 越 适 
合作 分 枝 特征 。 


10.2.7 分 枝 法 则 的 选择 


决策 树 的 分 枝 法 则 是 选择 信息 增益 、 信 息 增益 比 或 基尼 增益 最 大 ， 作 为 分 枝 。 
分 枝 法 则 要 选择 的 分 岔路 : 有 一 条 是 人 迹 罕 至 ， 另 一 条 是 人 山 人 海 。 这 个 分 岔路 的 信 
息 增益 ， 比 起 两 边 人 数 是 平分 秋色 ， 前 者 的 信息 增益 会 比较 大 。 


10.2.8 回归 树 


决策 树 的 自 变量 是 分 类 变量 ， 如 果 自 变量 是 连续 变量 ， 就 要 改 为 分 类 变量 ， 数 据 预 处 
理 的 分 箱 法 (binning) ， 将 连续 变量 改 为 分 类 变量 。 

在 R 语 言 包 C 5.0 和 rpart 可 以 自动 将 连续 变量 分 箱 为 分 类 变量 。R 语 言 包 CHAID 需 要 人 工 
分 箱 ， 用 分 割 函数 cut. 

决策 树 的 因 变 量 是 分 类 变量 ， 如 果 因 变 量 是 连续 变量 ， 则 为 回归 树 。 

回归 树 的 分 枝 不 是 用 属性 概率 的 信息 增益 ， 而 是 用 残 差 平方 和 ， 残 差 平 方 和 用 来 衡量 
模型 拟 合 程度 : 

RSS = 了 (观察 值 -预测 值 ] 
分 类 树 的 叶 节 点 是 计算 因 变 量 数 值 的 多 数 〈 投 票 ) 。 
回归 树 的 叶 节点 是 计算 因 变 量 数值 的 平均 值 。 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 FREE 


Q 决策 树 的 实例 计算 


下 面 再 用 第 9 章 天 气 和 打 网 球 的 数据 ， 计 算 决 策 树 。 


天 气 和 打 网 球 


根据 天 气 来 决定 是 否 打 网 球 ， 为 了 简化 计算 输入 ， 定 义 变量 代号 如 下 : 
特征 变量 : 和 = 天 气 : A= 晴 天 ，B= 阴 天 ，C= 雨天 

X2 = WARES D= UK, E= 适 中 F= 冷 天 

J3-iE:G-B.H-IEK 

X4 = JE 1= 99, T= 98 
目标 变量 : Z= 是 否 打球 :Y= 是 ，N= 否 
VLEXL, X2, X, X4 MZEE, 而且 是 分 类 变量 因子 。 
A，B，C，...，I，J，Y，NN 分 别 是 变量 因子 名， 如， 了 如， 了 和，Z 的 水 平 。 
Q 数据 
打球 数据 如 表 10-2 所 示 ， 将 数据 转换 成 Excel 表 如 图 10-4 所 示 。 

表 10-2 ”打球 数据 
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图 10-4 ”数据 Excel 格 式 


DAF ASR XI, X2, X3, XagoEWORRB A BC. 

@ 特征 属性 X1 

决策 树 基本 上 对 自 变量 特征 的 分 枝 是 二 分 类 ， 特 征 属性 X1 是 三 分 类 A，B，C， 如 果 用 
二 分 类 分 枝 ， 则 要 AB，AC 或 BC 合并 。R 例 10.1 的 rpart{rpart}、C5.0{C50}}、tree{tree} 三 
种 算法 用 二 分 类 分 枝 。 以 下 还 是 用 多 分 类 分 枝 计算 信息 。 

特征 属性 如 的 分 枝 信 息 及 分 枝 图 如 表 10-3、 图 10-5 所 示 。 
表 10-3 ”特征 属性 X1 的 分 枝 信息 


计算 信息 


Info([2, 4])=0.918 
Info([4, 0])-0 


Info([3, 2])=0.971 
Info([9, 6])=0.971 


/大 话 数据 科学 


大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


(1) 计算 信息 : 


Info(B) = Info([4.0]) = -os $}~Stos{ + =0 


4 
Info(C) = Info([3,2]) = -jos 人 2) - zoe 2) =0.971 


Info(X1) = Info([2.4].[4.0].[3.2]) = SInfo([2,4])+ mtfo([40])+ > info({3.2]) = 0.691 


9, (9) 6, (6 
Info(Z) = Info([9.6]) = — og] — |---1og| | - 0.071 
a a ea 下 (s) 15 (s) 
Gain(X1) = Info(Z) - Info(X1) = 0.971—0.691 — 0.2801 
Split info( 11) =Info([6.4.5]) =— tog ) 4 = 


6 5 (5 

LT Lay =1.5658 
15) 15 oe 15 o5) 
Gain(X1 
eee | eee a 00 


= = 0.1789 
Split Info(X1) 1.5658 
(2) 计算 基尼 系数 : 


Gini( A) =1—(2/6)° - (4/6). =0.4444 
Gini(B) =1-(4/4) -0-0 
Gini(C) =1—(3/5)’ - (2/5) =0.48 
Gini(Z) -1- (9/15) - (6/15). =0.48 
Gini(.X1) = (6/15)Gini( A) + (4/15)Gini(B) + (5/15)Gini(C) = 0.3378 
AGini(X1) = Gini(Z) - Gini( X1) = 0.48 — 0.3378 = 0.1422 


G) 计算 卡 方 值 : 

X (X1)-4444 
© 特征 属性 x2 
HIE REX? 9} Beta JR A EE 4210-4, 10-6 FT AN. 
表 10-4 ”特征 属性 X2 的 分 枝 信 息 
分 类 ( 目标 变量 ) 


Earl 
e{ s | 2 | 6 lyon | 
rm | 
JA a a U U 
me | ons | es | 1 | ] 


图 10-6 ”特征 属性 X2 的 分 枝 


(1) 计算 信息 : 
Info(D) = Info([2.3]) = -os| 2} - See 


A. 


es Wi we 


5 
sh 
Info(E) = Info([4.2]) -tos(4)- Clos 
Info(F)- Info([ [3 .1]) --w(1- ile 
Seite es 


Info(Z) = Info([9.6]) - — Zoe { )- istos )- 0.971 


/大 语 数 据 科 学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Gain(X2) = Info(Z) - Info( X1) = 0.971—0.799 =0.172 


Split Into (12) = nfo([5,6,4])=— oe 5] mn e 5)- T tog{ 4) =1.566 


Gain(X2) 0172 __ 
SplitInfo(X2) - 1.566 - 


Gain Ratio(X2) = 


(2) 计算 基尼 系数 : 
Gini(D)=1-(2/5) -(3/5)° =0.48 
Gini(E) -1- (4/6 —(2/6) =0.444 
Gini(F) =1-(3/4) - (1/4 =0.375 
Gini(Z) -1- (9/15) -(6/15) =0.48 
Gini(X2) - (5/15)Gini( D)  (6/15)Gini(E) + (5/15)Gini(F) = 0.438 
AGini( X2) = Gini(Z) - Gini(X2) = 0.48—0.438 = 0.042 
(3) 计算 卡 方 值 ; 
7 (X2)-13194 
O 特征 属性 X3 
特征 属性 到 的 分 枝 信息 及 分 枝 图 如 表 10-5、 图 10-7 所 示 。 
表 10-5 ”特征 属性 X3 的 分 枝 信息 
分 类 ( 目标 变量 ) 


计算 信息 


S 
om |] 
Co e l o eoon — —] 
a i I 


10-7 特征 属性 如 的 分 枝 


CD 计算 信息 : 
Info(G) = Info([3.5]) = -Bos 2|-Foe{ 2) =0.9545 
Info(H) = MR ME 
Info( X3) = Info([3.5].[6.1]) = Š mof. se “info((6. 1]) =0.746 


Info(Z)=Info([9.6]) = lo (4 )- Su 可 0.971 


Gain(X3) = Info(Z)-Info(X3)=0.971-0.746=0.225 


Split Info(X3) = Info([8.7]) = Sie 5)- tes( Z)- 0.997 


Gain Ratio(.X 3) = E S = 9:225 = 
Split Info(X3) 0.997 
(2) 计算 基尼 系数 : 
Gini(G)=1-(3/8) -(5/8) =0.4688 
Gini(H) =1-(6/7) -(1/7) - 0.2449 
Gini(Z) -1-(9/15) (6/15) =0.48 
Gini(X3) - (8/15)Gini( 4) + (7/15)Gini(H ) = 0.3643 
AGini(.X1)3 = Gini(Z) - Gini(X3) = 0.48 — 0.3643 = 0.1157 
(3) 计算 卡 方 值 : 
Z? (X3)=1.8862 
© 特征 属性 X4 
特征 属性 到 的 分 枝 信息 及 分 枝 图 如 表 10-6、 图 10-8 所 示 。 
表 10-6 “特征 属性 X4 的 分 枝 信息 
分 类 ( 目标 变量 ) 
计算 信息 


=a = spo» 


Info([3. 3])=1 
Info([9, 6])-0.971 


/大 话 数据 科学 
了 大 数据 与 机 可 学习 实战 (基于 后 


Bi 
Di 


I J 
6Y 3Y 
3N 3N 


Enos 特征 属性 X4 的 分 村 
(1) 计算 信息 : 
Info() = Info([6.3]) = ~Stoe($}-jee{ 5 }-09184 
Info(J) = Info([3.3]) = -os =) toe 2) = 1 
Info(X4) = Info((6,3] 3.3]) = tnto([e.3]) &mnto([.3]) =0.951 


Info(Z) = Info(|9.6 —l —l 0.971 

nfo(Z) o([9.6]) = - so 2)-£ se 5]- 
NEN a bo eos FÉ 

Split Info( X4) = Info([9.6]) = -os a) eel g 


Gain(X4) — 0020 4 9) 
Split Info(¥4) 0.971 


E 0.971 


Gain Ratio(.X 4) = 


(2) 计算 基尼 系数 : 

Gini(1)=1-(6/9) -(3/9) =0.4444 

Gini(J) =1-(3/6) - (3/6) =0.5 
Gini(Z) -1-(9/15y —(6/15) 20.48 
Gini(.X 4) - (9/15)Gini(1) - (6/15) Gini (J) = 0.4666 
AGini( X4) = Gini(Z) — Gini(.X 4) = 0.48 — 0.4666 = 0.0134 
G) 计算 卡 方 值 : 
X (X3)=0.0116 
@ 分 枝 
决策 树 算法 ID3 用 信息 增益 Gain 分 枝 ，C 5.0 用 信息 增益 比 Gain Ratio 分 枝 ，CART 用 基尼 
增益 A Gini 分 枝 ，CHAID 用 卡 方 值 好 分 枝 ， 如 表 10-7 所 示 。 


表 10-7 ea 


信息 增益 Gain 
信息 增益 比 GainRatio 


基尼 增益 (GiniGain) 
卡 方 值 


上 述 例题 根据 信息 增益 、 基 尼 增 益 、 卡 方 值 ， 分 枝 选 错 。 根 据 信息 增益 比 ， 分 枝 选 
了 避 。 接 下 来 ， 要 选 下 一 个 分 枝 的 特征 属性 ， 请 自行 计算 。 


Q 决策 树 的 前 枝 


10.4.1 RBA 


AFERE (greedy algorithm) 又 称 贪心 算法 ， 是 算法 在 每 一 步 选择 中 都 采取 在 目前 状 
态 下 最 适 或 最 优 RAAD 的 选择 ， 从 而 希望 导致 结果 是 最 好 或 最 优 的 算法 。 例 如 ， 在 旅 
行 推销 员 问 题 中 ， 如 果 旅行 员 每 次 都 选择 最 近 的 城市 ， 那 这 就 是 一 种 贪 禁 算法 。 

假设 商品 有 25 斤 、15 斤 、1 斤 三 种 包装 ， 顾 客 要 买 30 斤 ， 如 何 用 最 少 的 次 数 拿 给 客人 ? 
贪 禁 算法 的 解答 是 : I+ T+ 1 斤 + Ur* 1 斤 + 1 斤 。 最 优 解答 是 ，15 斤 + 15/7. 

贪 禁 算法 在 有 最 优 子 结构 的 问题 中 尤为 有 效 。 最 优 子 结构 的 意思 是 局 部 最 优 解 能 决定 
全 局 最 优 解 。 简 单 地 说 ， 问 题 能 够 分 解 成 子 问题 来 解决 ， 子 问题 的 最 优 解 能 递 推 到 最 终 问 
题 的 最 优 解 。 这 就 是 本 章 开始 说 的 “划分 和 征服 ”或 “分 而 治之 ”的 过 程 。 

贪 禁 算 法 对 每 个 子 问题 的 解决 方案 都 做 出 选择 ， 不 能 回 退 回头，backward) ， 不 能 
走 回头 路 。 

决策 树 在 每 个 分 枝 选择 信息 增益 〈 比 ) 或 基尼 增益 最 大 的 特征 属性 ， 而 且 不 能 回 退 。 
例如 ， 基 于 信息 增益 先 分 枝 各， 再 分 枝 好 ， 但 是 也 许 先 分 枝 XD, FREE 名， 会 比较 好 
所 以 才 会 有 不 同 的 信息 增益 选择 。 好 比 去 吃 一 个 流水 宴席 ， 第 一 次 上 菜 有 好 几 盘 菜 ， 选 择 
一 盘 好 吃 的 (信息 增益 大 ) ， 第 二 次 上 菜 是 把 未 选择 的 菜 再 组 合 ， 然 后 选择 一 盘 好 吃 的 。 
这 样 有 好 吃 的 《信息 增益 大 ) 就 赶快 吃 的 贪 禁 算法 ， 整 个 宴席 下 来 ， 不 见得 能 吃 到 整体 好 
吃 的 最 佳美 食 。 

机 器 学 习 的 交叉 验证 和 集成 学 习 的 随机 森林 可 以 解决 决策 树 贪 禁 算 法 的 问题 。 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


10.4.2 决策 树 剪 枝 


因为 算法 生成 的 决策 树 非常 详细 并 且 庞 大 ， 每 个 属性 都 被 详细 地 加 以 考虑 ， 决 策 树 的 
叶 节 点 所 覆盖 的 训练 样本 都 没有 误差 ， 即 每 片 树叶 都 是 “ 纯 ” (pure) 的 ， 偏 差 很 小 。 但 
是 用 这 个 决策 树 来 预测 测试 数据 的 结果 就 可 能 很 差 ， 方 差 很 大 ， 这 就 是 过 拟 合 ， 如 图 1-16 
GO». 

剪 枝 的 方法 简化 过 拟 合 的 决策 树 。 在 过 拟 合 决策 树 的 基础 上 ， 生 成 简化 版 的 决策 树 。 
决策 树 的 复杂 度 Ccomplexity) 是 过 拟 合 的 因素 。 剪 枝 是 剪 掉 那些 不 能 增加 正确 性 的 分 枝 。 

剪 枝 可 以 分 为 两 种 ， 预 剪 枝 〈Pre-Pruning) 和 后 剪 枝 (Post-Pruning) 。 预 剪 枝 并 非 
真正 剪 掉 现 有 的 分 枝 ， 而 是 预先 剪 掉 那 些 不 能 期 望 增加 正确 性 的 分 枝 。 后 剪 枝 是 有 一 个 完 
全 成 长 的 树 ， 再 剪 去 多 余 的 树枝 。 通 常 后 剪 枝 决策 树 的 从 拟 合 风险 比 预 前 枝 小 ， 正 确 度 也 
较 高 。 后 前 枝 决策 树 的 一 个 优点 是 有 互动 效用 《互动 效用 是 调整 前 枝 参数 比较 其 剪 枝 效 
R) 。 剪 枝 法 早期 是 预 剪 枝 ， 直 到 后 来 后 剪 枝 出 现 才 渐 被 取代 。1980 年 CHAID 是 用 预 前 
枝 ， 也 是 第 一 个 决策 树 算 法 。 

后 前 枝 的 方法 有 自 上 而 下 (top down) MA FTE (bottom up) ， 有 下 列 三 种 准则 
MN. 

(1) 降低 错误 前 枝 (reduced-error pruning) 自 下 而 上 的 前 枝 方法 ， 考 虑 将 树 上 的 每 
个 节点 作为 修剪 的 候选 对 象 ， 因 为 训练 集合 的 过 拟 合 ， 使 得 验证 集合 数据 能 够 对 其 进行 修 
正 ， 删 除 那 些 能 够 最 大 限度 提高 验证 集 精 度 的 节点 ， 直 到 进一步 修剪 有 害 有 害 是 指 修剪 会 
减低 验证 集合 的 精度 为 止 ， 反 复 进行 上 面 的 操作 。 所 以 用 REP 剪 枝 后 的 决策 树 对 于 测试 样 
例 的 偏差 要 好 很 多 ， 能 够 解决 一 定 程度 的 过 拟 合 问题 。 决 策 树 算法 C 4.5 和 C 5.0 是 用 这 个 准 
则 剪 枝 。 

(2) 悲观 错误 前 枝 (pessimistic error pruning) 自 上 而 下 的 剪 枝 方法 ， 这 是 基于 训练 数 
据 的 误差 估计 。 先 计算 规则 在 应 用 的 训练 样 例 上 的 准确 度 ， 然 后 假定 此 估计 准确 度 为 二 项 
分 布 ， 并 计算 它 的 标准 差 。 给 出 置信 区 间 ， 采 用 下 界 估计 作为 规则 性 能 的 度量 。 该 剪 枝 策 
略 随 着 数据 集合 的 减 小 ， 离 观察 精度 越 来 越 远 。 剪 枝 方法 尽管 不 是 统计 有 效 ， 但 是 在 实践 
中 有 效 。 

(3) 成 本 复杂 度 (cost complication) 自 下 而 上 的 剪 枝 方法 ， 生 成 一 系列 的 决策 树 ， 基 
于 剪 枝 所 增加 的 误差 相对 于 减 小 决策 树 的 规模 是 最 小 的 原则 : 

Min { [误差 〈 剪 枝 ) 一 误差 (未 剪 枝 ) ] / [ 叶 节点 数 〈 未 剪 枝 ) 一 叶 节 点 数 〈 剪 枝 ) ] } 

决策 树 算法 CART 是 用 这 个 准则 剪 枝 。 在 R 语 言 包 mpart 参 数 cp 是 成 本 复杂 度 。 

成 本 复杂 度 cp 为 0， 不 剪 枝 。cp 越 大 ， 剪 枝 越 多 ， 决 策 树 越 简单 ， 偏 差 也 越 大 。 

上 一 节 的 商品 ， 如 果 顾 客 要 买 35 斤 ， 贪 禁 算法 解答 : 25)T + 1 斤 X10 次 。 如 果 老 板 
说 成 本 复杂 度 太 高 〈 取 货 次 数 太 多 ) ， 要 剪 枝 。 最 多 取 货 2 次 ， 于 是 变 成 25 斤 + 15)T = 40 


斤 ， 误 差 5 斤 就 当 作 送 给 客人 。 


决策 树 的 优点 和 缺点 


Q 决策 树 的 优点 

(1) 决策 树 的 决策 模型 很 容易 解释 ， 尤 其 是 对 非 专业 人 员 ， 处 理 也 很 有 效率 。 

(2) 很 多 人 认为 决策 树 更 接近 人 类 决策 的 方式 。 

(3) 决策 树 可 以 用 图 形 表达 ， 适 合 小 型 数据 ， 也 适合 大 型 数据 。 

(4) 非 参 数学 习 的 自 变 量 (特征 属性 ) 不 需要 假设 特定 的 概率 分 布 。 即 使 自 变 量 有 共 
线性 关系 ， 也 不 影响 ， 如 图 8-3 决 策 树 是 基于 个 别 属性 。 

(5) 决策 树 训练 模型 的 结果 应 用 到 新 的 观察 数据 ， 计 算 很 快 。 

(6) 决策 树 尤其 是 回归 树 ， 可 以 处 理 高 度 非 线性 的 特征 关系 。 

(7) 可 以 处 理 连 续 数值 、 定 类 因子 和 遗失 值 。 有 极端 值 也 不 影响 。 

(8) 清楚 地 表示 自 变量 对 因 变量 的 影响 关系 。 可 以 排除 不 重要 的 特征 。 

(9) 决策 树 可 以 看 出 特征 变量 的 重要 性 ， 最 上 面 的 根 节点 分 枝 是 最 重要 的 特征 〈 自 


第 12 章 集成 学 习 的 随机 森林 ， 可 以 计算 特征 变量 重要 性 的 度量 。 


(10) 决策 树 有 烂 、 基 尼 系 数 、 卡 方 值 等 度量 准则 ， 特 征 变量 的 分 枝 和 数据 的 绝对 值 
无 关 ， 所 以 数据 不 需要 转换 〈 归 一 化 或 正规 化 ) 。 

四 决策 树 的 缺点 

CD 决策 树 的 预测 正确 性 ， 没 有 如 回归 或 其 他 分 类 器 那么 好 。 因 为 是 贪 禁 算 法 ， 计 算 
分 枝 的 自 变量 是 个 别 序列 式 ， 不 是 同时 考虑 回归 ， 所 以 可 能 是 局 部 最 优 解 。 

(2) 决策 树 模型 容易 欠 拟 合 或 过 拟 合 。 

G) 决策 树 可 能 非常 不 鲁 棒 ， 可 能 很 敏感 ， 换 言 之 ， 分 枝 的 一 个 小 变动 ， 可 能 造成 最 
后 预测 的 大 改变 。 

(4) 太 复 杂 的 树 会 难以 解释 ， 而 且 决 策 可 能 有 悖 常理 。 

C) 如 果 分 支 特征 有 很 多 叶 节点 ， 或 连续 型 特征 的 分 割 装 袋 ， 决 策 树 可 能 会 有 相当 的 
偏差 。 

(6) 因为 处 理 个 别 属性 的 信息 ， 会 失去 特征 预测 变量 的 关系 。 


/大 话 数据 科学 
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要 解决 上 述 问 题 ， 可 以 用 第 12 章 的 集成 学 习 例如 随机 森林 。 


10.6.1 决策 树 R 语 言 


R 语言 决策 树 的 包 有 C5.0、CAPT、CHAID、tree 等 ， 其 比较 如 表 10-8 所 示 。 


表 10-8 R 语言 决策 树 包 比较 
算法 名 称 


rpart (y~., data, method) 
method= “class” 42 fif chaid (y-., data) 
method=“anova” 回 归 树 


[an eam ar) aa 
| 多 个 分 校 pee 分 箱 法 cat， 多 个 分 枝 
信息 增益 比 基尼 增益 Atl 

[uias model fep ao alles; alpha 


了 语言 的 决策 树 包 还 有 tree， 其 函数 有 交叉 验证 cvtree. — 剪 枝 prune.tree、 预测 predict. 
tree, 绘图 plot.tree 等 。 


C50 (x, y) 
C 5.0 (y~., data) 


10.6.2 ” 打 网 球 数据 


用 天 气 和 打 网 球 的 数据 〈 表 10-2 ) H R 计 算 决 策 树 。 


【R 例 10.1 】 打 网 球 数据 play.csv， 函 数 { 包 } rpart{rpart}. C5.0{C50}}. tree{tree} 


数据 框 格式 data frame 15 个 观察 值 5 个 变量 
MA, 2,33, X4, Z 


> # R 例 10.1 
> play = read.csv("C:/R/play.csv",header=T) 


ON ON EO YOY ON ONE ON IE NE Oe 


if (!require (tree) ) {install.packages ("tree") } 

if (!require (C50) ) tinstall.packages ("C50") } 

if (!require (rpart) ) {install.packages ("rpart") } 

install.packages ("CHAID", repos-"http://R-Forge.R-project.org") 
install.packages ("profvis") ; library (tree) 

library (rpart) ; library(C50) ; library (CHAID) ; library (profvis) 
play.tree <- tree(Z- ., data-play, method = "gini", minsize-1) 
plot(play.tree) ; text(play.tree) ; pause(10) 

play.C50 <- C5.0(Z-., data-play) ; play.C50 ; summary (play.C50) 
plot(play.C50) ; pause(10) ; par(mfrow-c(1,1),xpd - NA) 
play.repart «- rpart(Z-., method-"class", data-play, 
control-rpart.control (minsplit=1) ) 

plot (play.repart, uniform-TRUE) ;> text(play.repart, cex=.8) 
rsq.rpart(play.repart) ; printcp(play.repart) 
plotcp(play.repart) ; plot(play.repart) ; text(play.repart) 


如 图 10-9 一 图 10-11 所 示 。 


tree::tree(Z~ ., play, method = "gini") 


图 10-9 tree 决策 树 


/大 语 数据 科学 
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C50::C5.0(Z~ ., play) 


a 


H 


/ T X 
z = 小 1 z =} 1 > =a 1 
08 08 08 
06 06 06 
04 04 04 
02 02 02 
P o > o0 0 


图 10-10 ”C5.0 决 策 树 


rpart::rpart(Z~ ., play) 
X1rac 


图 10-11 rpart 决 策 树 


10.6.3 ”泰坦 尼克 号 数据 


[ tit rp dr 
数据 框 格式 data.frame: 2201 个 观察 值 4 个 变量 
1. Class 舱 等 ，2. Sex 性 别 ，3. Age 年 龄 ，4. Survived 存 活 


> 4 R 例 10.2 

> if(!require (rpart)) (install.packages ("rpart")] 

> if(!require (rpart.plot)) (install.packages ("rpart.plot") } 

> if(!require (rpartkit)) (install.packages ("rpartkit") } 

> library(rpart) ; library(partykit) ; library (rpart.plot) 

» load("C:/R/titanic.raw.rdata") ; titanic«- titanic.raw 

» str(titanic) ; set.seed(100) 

> tr <- sample(x-l:nrow(titanic), size-ceiling(0.8*nrow(titanic))) 

» train «- titanic[tr, ] ; test «- titanic[-tr, ] 

» cart «- rpart(Survived -. , data-train) ; cart.tit 

> prp(cart,faclen-0,fallen.leaves-T,shadow.col-"blue",extra-2) # 图 10-12 
> rparty.tree <- as.party(cart) ; rparty.tree ; plot(rparty.tree) 

» pred «- predict(cart, newdata-test, type-"class") 

> table(real-test$Survived, predict-pred) # 预测 准确 率 = 对 角 线 的 数量 /总 数量 
> confus.matrix <- table(real-test$Survived, predict-pred) ; confus.matrix 
> sum(diag(confus.matrix))/sum(confus.matrix) 4 对 角 线 的 数量 /总 数量 

> printcp(cart) + 先 观察 未 修剪 的 树 ，CcP 字 段 代表 树 的 成 本 复杂 度 参数 

> plotcp(cart) # 图 10-13 

> prunetree cart <- prune(cart, cp = 

+ cart$cptable[which.min(cart$cptable[,"xerror"]),"CP"]) 

> + 利用 能 使 决策 树 具 有 最 小 误差 的 cP 来 修剪 树 

> prunetree pred <- predict (prunetree cart, newdata=test, type="class") 
> table(real-test$Survived, predict-prunetree pred) 

» prunetree confus.matrix «- table(real-test$Survived, 

* predict-prunetree pred) 

» sum(diag(prunetree confus.matrix))/sum(prunetree confus.matrix) 

> library(caret) ; > library(el071 

» train control «- trainControl (method-"cv", number-10) 

» train control.model «- train(Survived-., data-train, method-"rpart", 
十 


trControl-train control) + train control.model 


/大 话 数据 科学 
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图 10-12 ”决策 树 


size of tree 


X-val Relative Error 


Inf 0.086 0.018 


图 10-13 ”决策 树 前 枝 与 cp 值 


10.6.4 SEŽE 


【 RG10.3) SETHBiris, AMparty{party}, rpartXse, prettyTree{DMwR} 
数据 框 格式 data frame: 150 个 观察 值 5 个 变量 
Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species 


0.011 


第 图 章 


# RÉJ10.3 1, rpartXse, prettyTree(DMWR] 
if (!require (party) ) {install.packages ("party") } 
if (!require (DMwR) ) {install.packages ("DMwR") } 
if (!require (rattle) ) {install.packages ( ‘rattle’ )} 
if (!require (RColorBrewer) ) {install.packages( ‘RColorBrewer’ )} 
library(rattle) ; library(party) ; library(DMwR) ; library(rpart) 
data(iris) ; tree <- rpartXse(Species ~ ., iris) ; tree 
prettyTree (tree) 
fancyRpartPlot (tree, sub = '') 
tree <- rpart (Species ~ Sepal.Length + Sepal.Width + Petal.Length + 
Petal.Width, data = iris, method = "class") 
test «- data.frame(Sepal.Length = c(5.3, 7.2), 
Sepal.Width = c(2.9, 3.9), Petal.Length = c(1.7, 5.4), 
Petal.Width = c(0.8, 2.3)) 
predict (tree, test, type="class") 
# RBÍ10.3 2, rpart{rpart} 
rm(list=ls(all=TRUE)) ; data(iris) 
plot (iris[1:2], pch = 21, bg=c("red", "green3", "blue") 
[unclass (iris$Species)]) 
Iris <- iris[,3:5] # 以 下 Iris 只 用 两 个 特征 
plot(Iris[1:2], pch = 21, bg = c("red", "green3", "blue") 
[unclass (Iris$Species)]) 
# Iris rpart <- rpart(Species-., data = Iris) 
Iris rpart <- rpart(Species-., data = Iris, minsplit=1, cp=le-3) 
Iris rpart 
Iris rpart pred «- predict(Iris rpart, Iris) 
Iris rpart pred ClassN «- apply(Iris_rpart_pred,1, function(one row) 
return (which (one row == max(one row)))) 
Iris rpart pred Class <- apply( Iris rpart pred,1, function(one row) 
return (colnames (Iris rpart pred) [which (one row == max(one row))])) 
Iris Class temp <- unclass (Iris$Species) 
Iris Class «- attr(Iris Class temp ,"levels")[Iris Class temp] 
table(Iris rpart pred Class,Iris Class) 
par (mfrow-c(1,1),xpd = NA) 
plot(Iris rpart) ; text(Iris rpart) 
xl <- seq(min(Iris$Petal.Length), max(Iris$Petal.Length), length = 50) 
x2 <- seq(min(Iris$Petal.Width), max(Iris$Petal.Width), length = 50) 
Feature_xl_to_x2 <- expand.grid(Petal.Length = xl, Petal.Width = x2) 


Vo V VoM No VOV OM V+ Ve VV VV Vt VV te VM VMN VY Ve te ve VY VV 人 VY YY OM 


Feature x1 to x2 Class <- 
+ apply(predict(Iris rpart,Feature x1 to x2),1, 
+function (one row) return (which (one row == max(one row)) 23. 


> plot(Iris[1:2], pch = 21, bg = c("red", "green3", 


/大 话 数据 科学 
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"blue") [unclass (Iris$Species)]) 
contour(xl,x2,matrix(Feature x1 to x2 Class,length(x1)),add = 
levels = c(1.5,2.5),labex = 0) 

Ed RBJ10.3 3, rpart{rpart} 

library(tidyverse) ; library(caret) ;  library(rpart) 

model «- rpart(Species -., data = iris) ; par(xpd = NA) 
plot(model) ; text(model, digits = 3) ; print(model, digits 


newdata <- data.frame( Sepal.Length = 6.5, Sepal.Width = 3.0, 
Petal.Length = 5.2, Petal.Width = 2.0 ) 


model %>% predict (newdata, "class") 


如 图 10-14 一 图 10-18 所 示 。 
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图 10-14 决策 树 
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图 10-16 决策 树 的 逻辑 表示 


/大 语 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) ] 


n= 150 


node), split, n, loss, yval, (yprob) 
* denotes terminal node 


1) root 150 100 setosa (0.3333 0.3333 0.3333) 
2) Petal.Length« 2.45 50 0 setosa (1.0000 0.0000 0.0000) * 
3) Petal.Length»-2.45 100 50 versicolor (0.0000 0.5000 0.5000) 
6) Petal.Width« 1.75 54 5 versicolor (0.0000 0.9074 0.0926) 
12) Petal.Length« 4.95 48 1 versicolor (0.0000 0.9792 0.0208) 
24) Petal.Width« 1.65 47 0 versicolor (0.0000 1.0000 0.0000) * 
25) Petal.Width»-1.65 1 0 virginica (0.0000 0.0000 1.0000) * 
13) Petal.Length»-4.95 6 2 virginica (0.0000 0.3333 0.6667) 
26) Petal.Width>=1.55 3 1 versicolor (0.0000 0.6667 0.3333) 
52) Petal.Length« 5.45 2 0 versicolor (0.0000 1.0000 0.0000) * 
53) Petal.Length>=5.45 1 0 virginica (0.0000 0.0000 1.0000) * 
27) Petal.Width< 1.55 3 0 virginica (0.0000 0.0000 1.0000) * 
7) Petal.Width>=1.75 46 1 virginica (0.0000 0.0217 0.9783) * 


1.75 
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versicolor virginica TM 
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图 10-17 Rea OD 
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图 10-18 SESK (2) 


10.6.5 ” 皮 玛 数据 


[ R 例 10.4 ] 数据 Pima 六 数 chaid，Pima 数 据 和 Pima2 数 据 格 z 

本 例 对 居住 在 美国 亚利桑那 州 凤凰 城 附近 的 21 岁 以 上 的 印 地 安 皮 玛 (Pima) 妇女 进行 
糖尿 病 检测 。 这 些 数据 源 自 美国 国家 糖尿 病 、 消 化 和 肾脏 疾病 研究 所 收集 的 血清 胰岛 素数 
据 ， 总 共有 532 条 完整 记录 ， 分 成 训练 集 Pima.tr 和 测试 集 Pima.te。 

Pima.tr 数据 框 格式 data.frame: 200 个 观察 值 ”8 个 变量 

Pima.te 数据 框 格式 data.frame: 332 个 观察 值 ”8 个 变量 

1.npreg，2. Glu，3. Bp，4. Skin，5. Bmi，6. Ped，7. Age，8.type (目标 变量 ) 


# R 例 10.4 

if (! require (MASS)) (install.packages ("MASS") } 

if(!require (rpart)) (install.packages ("rpart")} 

install.packages ("CHAID", repos-"http://R-Forge.R-project.org") 
library (MASS) ; library(rpart) ; library (CHAID) 

data(Pima.tr) ; data(Pima.te) ; set.seed(100) ; str(Pima.tr) 
rpart tree<- rpart(type-., Pima.tr, control- rpart.control (cp=0) ) 


summary(rpart tree) ; par(xpd-TRUE) 


wc wo owe poo ND on ow i 


plot (rpart tree) ; text(rpart tree) 


/大 语 数据 科学 
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了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


m prune = prune(rpart tree, cp-0.03) 

par(xpd-TRUE) ; plot(m prune) ; text(m prune) 

pred - predict(rpart tree, Pima.te, type-"class") 

confusion m- table(Type-Pima.te$type, Predict-pred) ; confusion m 
accuracy - sum(diag(confusion m))/sum(confusion m) ; accuracy 

## C5.0 

if(!require(C50)) {install.packages ("C50") } 

library(rpart) ; library(C50) ; library (MASS) 

data(Pima.tr) ; data(Pima.te) 

C50 tree = C5.0(type-.,Pima.tr, control= C5.0Control (noGlobalPruning=T) ) 


summary (C50_tree) 

plot(C50 tree) ; text(C50 tree) 

C50 tree = C5.0(type~.,Pima.tr, control- C5.0Control (noGlobalPruning=F) ) 
># 图 10-19 
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## CHAID 

if (!require (CHAID) ) {install.packages ("CHAID") } 

if (! require (MASS) ) {install.packages ("MASS") } 

library(CHAID) ; library(MASS) ; data(Pima.tr) ; data(Pima.te) 

Pima«-rbind(Pima.tr,Pima.te) ; str(Pima) 

level name «- {} 

for (i in 1:7) (Pima[,i]«-cut(Pima[,i],breaks-3,order result-T, 
include.lowest-T) 


level name«-rbind(level name, levels(Pima[,i])) } 


vvv v 


wy 


level name«-data.frame(level name) 


row.names (level name) «-colnames (Pima) [1:7] 


ae | 


colnames (level name)«-paste( 'L' ,1:3,sep-' ' ) 
level name 

X1 x2 x3 
npreg [-0.017,5.67]  (5.67,11.3] (11.3,17] 
giu [55.9,104] (104,151] (151,199] 
bp [23.9,52.7]  (52.7,81.3]  (81.3,110] 
skin [6.91,37.7]  (37.7,68.3] (68.3,99.1] 
bmi [18.2,34.5]  (34.5,50.8] (50.8,67.1] 
ped [0.0827,0.863] (0.863,1.64] (1.64,2.42] 
age [20.9,41] (41,61]  (61,81.1] 


Pima.tr «- Pima[1:200, ] 

Pima.te «- Pima[201:nrow(Pima), ] 

set.seed(1111) 

CHAID tree = chaid(type-., Pima.tr) ; CHAID tree ; plot(CHAID tree) 
model«-predict(CHAID tree, newdata-newpima.te) 

matrix = table(Type = newpima.te$type, predict = model) ;> matrix 
sum (diag (matrix) ) /sum (matrix)# 正 确 率 

H 不 同 数据 来 源 PimaIndiansDiabetes2{mlbench} 

## data.frame: 392 obs. 9 variables: 1. pregnant 2. glucose 

## 3. pressure 4. Triceps 5. insulin 6. mass 7. Pedigree 8. age 
## 9. diabetes (factor "neg","pos") 

data("PimaIndiansDiabetes2", package - "mlbench") 

Pima2 «- na.omit (PimaIndiansDiabetes2) 

set.seed(123) 

tr <- Pima2$diabetes %>%  createDataPartition(p = 0.8, list = FALSE) 
train.data <- Pima2[tr, ] ; test.data «- Pima2[-tr, ] 
set.seed(123) 

modell «- rpart(diabetes -., data - train.data, method - "class") 
par(xpd - NA) ; plot(modell) ; text(modell, digits - 3) 


predicted.classes «- modell %>% predict(test.data, type = "class") 
head (predicted.classes) 

mean(predicted.classes -- test.data$diabetes) 

set.seed(123) 

model2 «- train( diabetes -., data - train.data, method - "rpart", 


trControl - trainControl("cv", number - 10), tuneLength - 10 ) 
model2$bestTune ; par(mfrow-c(1,1), xpd = NA) 

plot (model2$finalModel) ; text (model2$finalModel, digits = 3) 
model2$finalModel 

predicted.classes «- model2 %>% predict (test.data) 


mean(predicted.classes == test.data$diabetes) 


/状语 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


10.6.6 汽车 座 椅 销 售 数 据 


[ Ca : ree ISL 


不 同 销售 地 点 汽车 座 椅 的 销售 数据 
数据 框 格式 data.frame: 400 个 观察 值 ”11 个 变量 
Sales，CompPrice，Income，Advertising，Population，Price， 


ShelveLoc, Age, Education, Urban, US 


> 4 R 例 10.5 

library(ISLR) ; require(tree) ; data(Carseats) ; carseats«-Carseats 
str(carseats) ; names(carseats) ; par(mfrow-c(1,1), xpd = NA) 

hist (carseats$Sales) 

High = ifelse(carseats$Sales«-8, "No", "Yes") 

carseats - data.frame(carseats, High) 

tree.carseats - tree(High-.-Sales, data-carseats) 

summary (tree.carseats) 

plot(tree.carseats) ; text(tree.carseats, pretty = 0) 

set.seed (101) 

train-sample (1:nrow(carseats), 250) 

tree.carseats - tree(High-.-Sales, carseats, subset-train) 

plot (tree.carseats) 

text(tree.carseats, pretty-0) 

tree.pred - predict(tree.carseats, carseats[-train,], type-"class") 
with(carseats[-train,], table(tree.pred, High)) 

cv.carseats - cv.tree(tree.carseats, FUN - prune.misclass) 
Cv.carseats ; plot(cv.carseats) 

prune.carseats - prune.misclass(tree.carseats, best - 12) 
plot(prune.carseats) ; text(prune.carseats, pretty-0) 


tree.pred - predict(prune.carseats, carseats[-train,], type-"class") 


V V V V V V V VV VV VV VV VV VY VY OM 


with(carseats[-train,], table(tree.pred, High) ) 


如 图 10-20 一 图 10-22 所 示 。 
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图 10-21 决策 树 前 枝 与 错误 数 


/大 语 数 据 科 学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


ShelveLoc: pad Mediumi 


Price k 127 Price « 135 


图 10-22 ”决策 树 


data (Carseats) 

Carseats$Sales = as.factor(ifelse(Carseats$Sales <= 8, "Low", "High")) 
Seat tree = tree(Sales ~ ., data = Carseats) 

summary (seat tree) 

plot(seat tree) ; text(seat tree, pretty = 0) 

title(main = "Unpruned Classification Tree") 

set.seed(2019) 

seat idx = sample(1:nrow(Carseats), 200) 

seat trn = Carseats[seat idx,] 


seat tst = Carseats[-seat idx,] 


Seat tree = tree(Sales ~ ., data = seat trn) 


summary(seat tree) ; summary(seat tree) $used 


2 

> 

> 

= 

> 

> 

> 

> 

> 

> 

> 

> 

> names (Carseats) [which(! (names (Carseats) %in% summary (seat_tree) $used) ) ] 
> plot(seat_tree) ; text(seat_tree, pretty = 0) 

> title(main = "Unpruned Classification Tree") 

> seat trn pred = predict(seat tree, seat trn, type = "class") 
» seat tst pred - predict(seat tree, seat tst, type - "class") 
> table (predicted = seat trn pred, actual = Seat trn$Sales) 

> table (predicted = seat tst pred, actual - seat tst$Sales) 

> accuracy = function(actual, predicted) { mean(actual == predicted) } 
> accuracy (predicted = seat trn pred, actual = seat_trn$Sales) 
> accuracy (predicted = seat tst pred, actual = seat_tst$Sales) 
> set.seed(100) 

> seat tree cv = cv.tree(seat tree, FUN = prune.misclass) 

= 


(min idx = which.min(seat tree cv$dev)) 


» seat tree cv$size[min idx] 

» par(mfrow - c(1, 2)) 

» plot(seat tree cv) 

» plot(seat tree cv$size, seat tree cv$dev / nrow(seat trn), type - "b", 
* xlab = "Tree Size", ylab = "CV Misclassification Rate") 

> seat tree prune = prune.misclass(seat tree, best = 9) 

» summary(seat tree prune) 

» plot(seat tree prune) ; text(seat tree prune, pretty - 0) 

» title(main - "Pruned Classification Tree") 

» seat prune trn pred - predict(seat tree prune, seat trn, type - "class") 
» table(predicted - seat prune trn pred, actual - seat trn$Sales) 

> accuracy(predicted = seat prune trn pred, actual = seat trn$Sales) 

» seat prune tst pred - predict(seat tree prune, seat tst, type - "class") 
» table(predicted - seat prune tst pred, actual - seat tst$Sales) 

> accuracy(predicted = seat prune tst pred, actual = seat tst$Sales) 

» library(rpart) ; set.seed(430) 

> seat rpart = rpart(Sales ~ ., data = seat trn, method = "class") 

» plotcp(seat rpart) 

» min cp - seat rpart$cptable[which.min(seat rpart$cptable[, "xerror"]), 
+ "CP"] 

» min cp ; seat rpart prune - prune(seat rpart, cp - min cp) 

» library(rpart.plot) ; prp(seat rpart prune) 

> prp(seat rpart prune, type = 4) ; rpart.plot(seat rpart prune) 


10.6.7 ”波士顿 房价 数据 


[ RBI10 

美国 波士顿 地 区 的 房价 数据 

数据 框 格式 data.frame: 506 个 观察 值 14 个 变量 

crim, zn, indus, chas, nox, rm, age, dis 
rad，tax，ptratio，black，lstat，medv〔( 因 变数 房价 中 位 数 ) 


* R 例 10.6 

library(MASS) ; data(Boston) ; str(Boston) ; set.seed(123) 
idx = sample(1:nrow(Boston), nrow(Boston) / 2) 

trn - Boston[idx,] ; tst - Boston[-idx,] 

tree = tree(medv ~ ., data = trn) ; summary (tree) 


plot(tree) ; text(tree, pretty = 0) ; title(main = "未 剪 枝 回归 树 ") 


set.seed(18) ; tree cv = cv.tree(tree) 


plot(tree cv$size, sqrt (tree cv$dev / nrow(trn)), type = "b",xlab = 


* wo Wo wo wv wv OY v CX 


"Tree Size", ylab = "CV-RMSE") 


/大 语 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


> tree prune = prune.tree(tree, best = 7); summary(tree prune) 

> plot(tree prune) 7 text(tree prune, pretty = 0) 

> title(main = " 剪 枝 回归 树 ") 

> rmse = function (actual, predicted) {sqrt (mean((actual-predicted)^2))] 
+ sqrt (summary (tree prune)$dev / nrow(trn)) 

» prune trn pred - predict(tree prune, newdata - trn) 

» rmse(prune trn pred, trn$medv) 

» prune tst pred - predict(tree prune, newdata - tst) 

» rmse(prune tst pred, tst$medv) 

» plot(prune tst pred, tst$medv, xlab - "Predicted", ylab - "Actual") 
> abline(0, 1) ; boston lm = lm(medv ~ ., data = trn) 

> lm pred = predict(boston 1m, newdata = tst) 

> plot (lm pred, tst$medv, xlab = "Predicted", ylab = "Actual") 

> abline(0, 1) ; rmse(lm pred, tst$medv) ; set.seed(123) 

> tr «- Boston$medv %>% createDataPartition(p-0.8, list-FALSE) 

» train «- Boston[tr, ] ; test «- Boston[-tr, ] ; set.seed(123) 

» model «- train(medv -., data - train, method - "rpart", 

* trControl - trainControl("cv", number - 10), tuneLength - 10 ) 

> plot (model) ; model$bestTune 


如 图 10-23、 图 10-24 所 示 。 
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图 10-23 ”决策 树 
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10-24 ”决策 树 CP 值 与 RMSE 


10.6.8 skim 


数据 框 格式 data.frame: 144 个 观察 值 ”3 个 变量 
1. Sex 猫 的 性 别 ( 目 标 变量 F，M) ，2. Bwt 体重 (kg) ，3. Hwt 心脏 重量 Cg) 


# R 例 10.7 

library(MASS) ; library(rpart) ; data(cats) ; str(cats) 
plot(cats[2:3], pch-21, bg=c("red", "green3") [unclass (cats$Sex)]) 
cats ml <- rpart(Sex-., data = cats) 

plot(cats ml) ; text(cats ml) 

$cats m2 <- rpart(Sex-., data = cats, minsplit=1, cp-1e-3) 
cats pred «- predict(cats ml , cats) 

cats pred Class <- apply( cats pred,l,function(one row) 
return(colnames (cats pred) [which (one row == max(one row))])) 
cats Class temp «- unclass (cats$Sex) 

cats Class «- attr(cats Class temp ,"levels")[cats Class temp] 


table(cats pred Class, cats Class) 


xl «- seq(min(cats$Bwt), max(cats$Bwt), length 50) 


x2 «- seq(min(cats$Hwt), max(cats$Hwt), length = 50) 


A. ocwe xe ow Ne oce MERUNP UC MS Ue oye Nec We We 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 RR 语 言 ) 


Feature x1 to x2 «- expand.grid(Bwt = xl, Hwt = x2) 
Feature_xl_to_x2 Class <- apply(predict(cats_ml ,Feature xl to x2),1, 
function (one row) return (which (one_ row == max (one row)))) 
plot(cats[2:3], pch = 21, bg = c("red", "green3") [unclass (cats$Sex) ]) 
contour(xl,x2,matrix(Feature x1 to x2 Class,length(x1)),add =T, 


levels = 1.5,labex = 0) 


WY WV YY 


如 图 10-25 所 示 。 
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图 10-25 ”决策 树 


> $ 若 cats_ml 改 为 cats_m2 可 得 到 无 剪 枝 结果 ， cp 默认 值 0.01 


> #cats_m2 <- rpart(Sex-., data = cats, minsplit=1, cp=le-3) 


如 图 10-26 所 示 。 
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/ 估 话 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


10.6.9 驼背 数据 


驼背 状 柱 手术 rpart 包 的 kyphosis 数 据 注意 数据 名 kyphosis， 因 变量 名 Kyphosis 
数据 框 格式 data.frame: 81 个 观察 值 4 个 变量 
1. Kyphosis: 因子 C'absent", "present") ，2. Age, 3. Number, 4. Start 


> 4 R 例 10.8 

> library(rpart) ; library(rattle) 

» data(kyphosis) ; str(kyphosis) ; set.seed(100) 

» select«-sample(81,61) ; head(kyphosis) ; dim(kyphosis) 

> fit «- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis) 

> fit2 «- rpart(Kyphosis ~ Age + Number + Start, data kyphosis, 

* parms = list(prior = c(.65,.35), split = "information")) 

> fit3 «- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, 

* control = rpart.control(cp = 0.05)) 

> par(mfrow = c(1,2), xpd = NA) ; plot(fit) ; text(fit, use.n = TRUE) 

> plot(fit2) ; text(fit2, use.n = TRUE) 

» traindata«-kyphosis[select,] ; testdata«-kyphosis[-select,] 

> ctr«-rpart.control (minsplit-20,minbucket-10,maxdepth-10,xval-5,cp-0.01) 
> model<-rpart (Kyphosis ~Age+Number+Start, data-traindata,method- "class", 
* control-ctr, parms-list(prior-c(0.6,0.4), split - "information")) 

> summary(model) ; asRules(model) ; printcp (model) 


如 图 10-27 所 示 。 
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图 10-27 决策 树 


> pred «-predict (model,newdata-testdata,type- "class") ; pred 
> matrix«-table(testdata$Kyphosis,pred,dnn-c("True", "Predict")) 


um(diag(matrix))/sum(matrix) ; set.seed(1) 


> 
> fit <- rpart (Kyphosis~., data= kyphosis, method= "class" 
+ control-rpart.control (minsplit-20,xval-10,cp-0.01)) 

> 


fit$cptable 


10.6.10 ”美国 总 统 选举 投票 数据 


id(CHAID] 


vote3 ("Gore" 5K "Bush") ，gender 性 别 ，ager 年 龄 ，empstat 受 雇 与 否 ，educr 学 历 ， 
marstat 结 婚 与 否 


> # R 例 10.9 

> library (CHAID) ; library (caret) ; set .seed (2000) ;data ("USvote") ; str (USvote) 
> training <- sample(1:nrow(USvote), 3000) 

> testing <- USvote[-training,] ; training <- USvote[training,] 

> ctl <- chaid control(alpha2 = 0.05, alpha3 = -1, alpha4 = 0.05, 

+ minsplit = 20, minbucket = 7, minprob = 0.01, stump = FALSE) 

> # ctl <- chaid control(minsplit-500, minbucket=100, minprob-0) 

> # ctrl <- chaid control(minsplit = 20, minbucket = 5, minprob = 0) 

> chaid <- chaid(vote3~., data = training, control = ctl) 

> print (chaid) ; plot (chaidRes) 

> predtrain <- predict (chaid, training) ; realtrain <- training$vote3 

> summary(predtrain) ; summary(realtrain) ; table(predtrain, realtrain) 
» confusionMatrix(predtrain, realtrain) 

» predtest «- predict(chaid, testing) ; realtest «- testing$vote3 

» compare «- cbind(realtest, predtest) ; table(predtest, realtest) 

» confusionMatrix(predtest, realtest) 

> print (paste (" 测 试 数据 正确 ", length (which (compare[,1]==compare[,2])),sep=": 
do 

> print (paste ("测试 数据 错误 ", length (which (compare[,1] !=compare[,2])),sep= 
zy) 


如 图 10-28 所 示 。 


/大 语 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 
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数据 框 格式 data.frame: 1470 个 观察 值 “35 个 变量 


> 4 R 例 10.10 

> install.packages ("partykit") 

> install.packages ("CHAID", repos-"http://R-Forge.R-project.org") 

» install.packages ("rsample") 

> install.packages ("kableExtra") 

> library("partykit") ; library(CHAID) ; require(rsample) 

> require(dplyr) ; require(purrr) ; require(caret) ; require (kableExtra) 
» attrition «- read.csv("C:/R/Attrition.csv") ; str(attrition) 

> attrition <- attrition %>% mutate if(function(col) length (unique (col)) 
+ <=10 & is.integer(col), as.factor) 

» attrition$YearsSinceLastPromotion «- cut( 

* attrition$YearsSinceLastPromotion, 

+ breaks = c(-1, 0.9, 1.9, 2.9, 30), 

+ labels = c("Less than 1", "1", "More than 2") ) 

> attrition <- attrition %>% mutate if(is.numeric, funs(cut number(., 

+ n=5))) 

> newattrit <- attrition %>% select_if(is.factor) 

> ctrl «- chaid control(minsplit = 200, minprob = 0.05) 

> full_data <- chaid(Attrition ~ ., data = newattrit, control = ctrl) 

> print(full data) 
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plot (full data, main = "newattrit dataset, minsplit = 200, 

minprob = 0.05", gp = gpar(lty = "solid", lwd = 2, fontsize = 10 ) ) 

set.seed (1234) 

split «- initial split(newattrit, prop = .7, strata = "Attrition") 

train <- training(split) ; test <- testing(split) 

features <- setdiff(names(train), "Attrition") 

X <- train[, features] ; y «- train$Attrition 

train control <- trainControl (method = "cv", number = 10, 
verboseIter = TRUE, savePredictions = "final") 

chaid.ml <- train(x = x, y = y, method = "chaid", metric = "Kappa", 

trControl - train control ) 

chaid.ml ; plot(chaid.ml) ; chaid.ml$finalModel 

plot(chaid.ml$finalModel) ; confusionMatrix(chaid.ml) 

confusionMatrix(predict(chaid.m1), y) ; varImp(chaid.ml) 

chaid.ml$bestTune ; chaid.ml$times ; chaid.ml$method 

chaid.ml$modelInfo ; chaid.ml$results 

search grid «- expand.grid( alpha2 - c(.05, .01, .001), 

alpha4 = c(.05, .01, .001), alpha3 = -1 ) 


train control <- trainControl (method = "cv", number = 10, 
savePredictions = "final") 
chaid.m2 «- train( x = x, y = y, method = "chaid", 


metric - "Kappa", trControl - train control, tuneGrid - search grid ) 
chaid.m2 ; plot(chaid.m2) ; chaid.m2$finalModel 
plot(chaid.m2$finalModel) ; confusionMatrix(chaid.m2) 
confusionMatrix(predict(chaid.m2), y) ; chaid.m2$results 

CgpCHAID «- list(label = "CGP CHAID", library = "CHAID", loop = NULL, 


type = c("Classification"), parameters = data.frame (parameter 


c('minsplit', 'minbucket', 'minprob', 'maxheight'), 
class = rep('numeric', 4), 
label = c('Numb obs in response where no further split', 
"Minimum numb obs", "Minimum freq of obs", "Maximum height") ), 
grid = function(x, y, len = NULL, search = "grid") {if(search == 
"grid") (out «- data.frame(minsplit = c(20,30), minbucket = 7, 
minprob = c(0.05,0.01), maxheight = -1) } else ( 
out <- data.frame(minsplit = c(20,30), minbucket = 7, 
minprob = c(0.05,0.01), maxheight = -1) } + out }, 
fit = function(x, y, wts, param, lev, last, classProbs, ...) { 
dat «- if(is.data.frame(x)) x else as.data.frame (x) 
dat$.outcome «- y + theDots «- list(...) 
if(any(names(theDots) == "control")) ( 
theDots$control$minsplit «- param$minsplit 
theDots$control$minbucket «- param$minbucket 
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theDots$control$minprob «- param$minprob 
theDots$control$maxheight «- param$maxheight 
ctl <- theDots$control + theDots$control <- NULL ] 
else ctl «- chaid control(minsplit = param$minsplit, 
minbucket = param$minbucket, + minprob = param$minprob, 
maxheight = param$maxheight) +if(!is.null (wts)) theDots$weights «- wts 
modelArgs «- c(list(formula = as.formula(".outcome ~ ."), 
data = dat, control = ctl), theDots) 
out «- do.call(CHAID::chaid, modelArgs) + out }, 
predict = function(modelFit, newdata, submodels = NULL) { 
if(!is.data.frame(newdata)) newdata «- as.data.frame (newdata) 
predict (modelFit, newdata) }, 
prob = function(modelFit, newdata, submodels = NULL) { 
if (!is.data.frame(newdata)) newdata <- as.data.frame (newdata) 
predict (modelFit, newdata, type = "prob") }, 
levels = function(x) x$obsLevels, 
predictors = function(x, surrogate = TRUE, ...) { 
predictors(terms(x)) }, 
tags = c('Tree-Based Model', "Implicit Feature Selection", 
"Two Class Only", "Accepts Case Weights"), 
sort = function(x) x[order(-x$minsplit, -x$minbucket, 
-x$minprob, -x$maxheight),]) 
cgpCHAID 
search grid «- expand.grid( minsplit = c(30,40), minprob = .1, 
4) 


minbucket = 25, maxheight 
search grid 

chaid.m3 «- train( x = x, y = y, method = cgpCHAID, trControl = 
train control, metric - "Kappa", tuneGrid - search grid ) 

chaid.m3 ; chaid.m3$finalModel ; confusionMatrix (chaid.m3) 
confusionMatrix (predict (chaid.m3), y) 

plot (chaid.m3) ; plot(chaid.m3$finalModel) ; varImp(chaid.m3) 
confusionMatrix (predict (chaid.m3, newdata = test), test$Attrition) 

y, method = cgpCHAID, 

metric = "Kappa", trControl = train control, tuneGrid = search grid ) 
plot (chaid.m4) ; plot (chaid.m4$finalModel) 


confusionMatrix (predict (chaid.ml, newdata = test), test$Attrition) 


chaid.m4 <- train( x = x, y 


varImp(chaid.m4) 


confusionMatrix(predict(chaid.m2, newdata = test), test$Attrition) 
confusionMatrix(predict(chaid.m3, newdata - test), test$Attrition) 
confusionMatrix(predict(chaid.m4, newdata = test), test$Attrition) 
# 图 10-29 
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newattrit dataset, minspit = 200, minprob = 0.05 
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Fitted party: 
[1] root 
1 [2] OverTime in No 
1 [3] YearsAtCompany in [0,2] 
1 [4] Age in [18,29], (29,34]: No (n = 129, err = 32.6%) 
1 [5] Age in (34,38], (38,45], (45,60]: No (n = 109, err = 6.4%) 
[6] YearsAtCompany in (2,5], (5,7], (7,10], (10,40] 
1 [7] WorkLifeBalance in 1: No (n = 45, err = 22.2%) 
[8] WorkLifeBalance in 2, 3, 4 
1 [9] JobSatisfaction in 1: No (n = 153, err = 12.4%) 
1 [10] JobSatisfaction in 2, 3, 4 
| | [11] Age in [18,29], (29,34], (34,38], (38,45] 
1 [12] BusinessTravel in Non-Travel, Travel Rarely 
1 1 [13] JobInvolvement in 1: No (n = 25, err = 12.0%) 
1 1 [14] JobInvolvement in 2, 3, 4 
1 
1 
1 [17] BusinessTravel in Travel Frequently: No (n = 95, err 
1 [18] Age in (45,60]: No (n = 114, err = 11.4%) 
19] OverTime in Yes 
[20] JobLevel in 1: Yes (n - 156, err - 47.41) 
[21] JobLevel in 2, 3, 4, 5 
1 [22] MaritalStatus in Divorced, Married: No (n = 188, err = 10.6%) 
1 [23] MaritalStatus in Single: No (n = 72, err = 34.7$) 


Number of inner nodes: 11 
Number of terminal nodes: 12 


图 10-29 决策 树 


1 
1 
1 
1 1 1 [15] RelationshipSatisfaction in 1, 4: No (n = 186, err = 4.3%) 
1 1 I [16] RelationshipSatisfaction in 2, 3: No (n = 198, err = 0.0%) 
1 


= 8.4%) 
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本 章 思维 导 图 | 


决策 树 表示 图 形 ， 逻 辑 ， 规 则 ， 数 学 公式 
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决策 树 


打 网 球 play 数据 : R 例 10.1 
泰坦 尼克 号 titanic raw 数据 : R 例 10.2 
SEH iris 数据 : R 例 10.3 
皮 玛 Pima 数据 : R 例 10.4 


汽车 座 椅 Carseats 销 售 数据 : R 例 10.5 e 
IN 


波士顿 Boston 房 价 数据 : R 例 10.6 


Hi cats 数据 : R 例 10.7 m 


员工 离职 attrition 数据 : R 例 10.10 
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省 支持 向 量 机 概述 | 


支持 向 量 机 (Support Vector Machine, SVM) 是 监督 式 学 习 模 型 ， 有 一 个 目标 变量 ， 
作为 标签 分 类 或 数值 回归 ， 分 析 数 据 的 学 习 算 法 。 将 实例 样本 表示 为 空间 中 的 点 ， 这 样 映 
射 就 使 得 单独 类 别 的 实例 被 尽 可 能 宽 的 明显 的 间隔 分 开 。 然 后 ， 将 新 的 实例 映射 到 同一 空 
间 ， 并 基于 它们 落 在 间隔 的 哪 一 侧 来 预测 所 属 类 别 。 

除了 进行 线性 分 类 之 外 ，SVM 还 可 以 使 用 所 谓 的 核 技巧 (kernel trick) 有 效 地 进行 非 
线性 分 类 ， 将 其 输入 到 隐 式 映射 高 维特 征 空间 中 。 

1964 年 苏联 学 者 Vapnik 建 立 硬 间隔 的 线性 SVM。 在 20 世 纪 70 一 80 年 代 ， 最 大 间隔 分 
类 边界 的 理论 、 基 于 松弛 变量 的 规划 问题 求解 技术 ， 和 VC 维 CVapnik-Chervonenkis, VC 
dimension) 的 提出 ，SVM 被 逐步 理论 化 并 成 为 统计 学 习 理 论 的 重要 部 分 。1992 年 ， 建 立 核 
方法 非 线 性 SVM。1995 年 ， 建 立 软 间隔 的 非 线 性 SVM 并 应 用 于 手写 数字 识别 问题 ， 为 SVM 
在 各 应 用 领域 商定 了 基础 。 

SVM 在 解决 非 线性 及 高 维 模式 识别 问题 表现 出 许多 特有 的 优势 。 已 经 应 用 于 手写 字体 
识别 、 文 本 和 超 文 本 的 分 类 、 三 维 目标 识别 、 人 脸 识别 、 图 像 分 类 、 医 学 分 类 和 蛋白质 和 基 
因 等 实际 问题 ， 性 能 优 于 已 有 的 学 习 方 法 ， 表 现 出 良好 的 学 习 能 力 。 有 限 训练 样本 得 到 的 
决策 规则 对 独立 的 测试 集 仍 能 够 得 到 较 小 的 误差 。SVM 分 类 有 三 种 情况 : 

“最 大 间隔 分 类 〈 硬 间隔 ) : 存在 一 个 超 平面 ， 使 两 个 不 同 的 实例 线性 可 分 。 

“支持 向 量 分 类 〈 软 间隔 ) : 实例 是 线性 不 可 分 ， 加 入 代价 cost 参 数 。 

* 支 持 向 量 机 〈 核 函数 ) : 利用 核 函 数 的 映射 ， 非 线性 SVM。 

话说 有 一 位 皇帝 请 来 天 下 武功 第 一 的 武林 盟主 ， 要 盟主 把 江湖 中 的 好 人 和 坏人 分 别 
出 来 ， 武 林 盟 主 招来 所 有 帮派 江湖 人 士 ， 用 他 的 赏 善 罚 恶 功 ， 一 掌 将 所 有 的 江湖 人 士 分 开 
两 边 ， 好 人 一 边 ， 坏 人 一 边 ， 有 一 个 鸿沟 分 开 的 两 边 使 距离 最 大 ， 鸿 沟 边界 有 一 些 门派 的 
党 门 或 帮主 ,很 容易 区 别 好 人 坏人 ， 和 皇帝 非常 高 兴 。 过 了 几 十 年 ， 江 湖 更 加 混乱 ， 皇 帝 又 
请 武林 盟主 ， 要 把 江湖 中 的 好 人 和 坏人 分 别 出 来 ， 但 是 有 很 多 坏人 混在 好 人 中 ， 或 好 人 混 
着 坏人 中 ， 盟 主 说 我 的 掌 风 不 会 转弯 ， 货 善 罚 恶 功 会 把 好 人 打 成 坏人 ， 把 坏人 当成 好 人 。 
皇帝 说 ， 你 打 错 人 我 按照 错误 的 程度 代价 赔偿 ， 你 只 要 把 赔偿 总 代价 降 到 最 低 ， 盟 主 就 尽 
力 去 完成 。 再 过 几 十 年 ， 盟 主 闭关 修 练武 功 更 上 层 楼 ， 这 时 天 下 局 势 突变 ， 坏 人 聚集 在 京 
城 ， 好 人 反而 四 散 部 区。 皇帝 还 是 要 盟主 执行 赏 善 罚 恶 功 ， 于 是 盟主 用 尽 洪荒 之 力 ， 在 地 
面 一 拍 ， 好 人 升 空 坏人 下 降 ， 赏 善 罚 恶 功 横 刀 一 切 ， 划 分 出 好 人 坏人 。 


z 0 = EZEEUI 


核 函 数 与 支持 向 量 机 关系 如 图 11-1 所 示 。 
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图 11-1 核 函 数 支持 向 量 机 


在 这 个 故事 当中 : 皇帝 是 “数据 科学 家 ”， 武 林 盟 主 是 “SVM 模型 ”， 江 湖人 士 是 
“数据 ”， 好 人 坏人 是 “分 类 ”， 货 善 罚 恶 功 是 “分 类 器 ”， 划 分 界线 党 风 和 横 刀 一 切 是 
“ 超 平 面 ”， 分 开 两 边 最 大 距离 M 的 鸿沟 是 “决策 边界 ”， 鸿 沟 边界 内 的 门派 掌 门 或 帮主 
是 “支持 向 量 ”， 分 开 两 边 没有 误 判 是 “ 硬 间 隔 ”， 打 错误 判 赔偿 是 “ 软 间隔 ”， 赔 偿 成 
本 是 “代价 参数 惩罚 系数 ”， 掌 风 是 “线性 函数 ”， 拍 地 面 使 好 人 升 空 是 “ 核 函 数 ”。 

有 人 认为 SVM 是 武功 排名 第 一 ， 但 是 还 有 其 适用 优 缺 。 

SVM 模型 的 主要 概念 和 特性 : 

(D SVM 最 优化 分 类 间隔 M，M=l1/|ol Jol’ =o, 是 变量 线性 组 合 的 系数 。 
优化 问题 : Max 2/|o| =Min|o| /2 成 为 凸 二 次 规划 ， 二 次 式 目标 函数 使 抛物 面 有 全 局 最 优 
解 ， 对 比 神经 网 络 ， 有 可 能 是 局 部 最 优 解 。 凸 二 次 规划 也 容易 求解 。 

(2) SVM 最 优化 算法 不 是 像 决 策 树 的 贪 禁 算法 。 

(3) 支持 向 量 是 在 决策 边界 鸿沟 内 的 样本 ， 接 近 超 平面 ， 是 容易 跌倒 被 误 判 的 样本 。 
改变 或 移动 支持 向 量 ， 会 改变 决策 边界 和 分 类 间隔 。SVM 模 型 预测 只 需要 支持 向 量 〈 掌 门 
帮主 ) ， 非 支持 向 量 〈 其 他 门徒 ) 不 影响 模型 。 

(4) SVM 模型 自 变量 约束 函数 有 线性 函数 和 非 线 性 核 函 数 。 

(5) SVM 模型 有 结构 风险 最 小 化 的 特征 ， 就 是 正则 化 〈 代 价 参数 惩罚 系数 ) ， 减 小 
模型 复杂 度 ， 防 止 过 拟 合 。 所 以 SVM 模型 不 但 降低 经 验 风 险 也 降低 结构 风险 。 

对 比 图 8-3 的 学 习 器 分 类 比较 ， 图 11-2 将 上 述 概念 加 以 比较 。 


自 变量 列 计算 全 部 样本 行 一 一 回归 ，Logistic 回 归 
监督 式 HERE 计算 部 分 SV 行 一 一 SVM 线 性 核 
学 习 、、 自 变量 列 va 计算 全 部 样本 行 — 决策 树 ， 神 经 网 络 


非 线性 函数 S 计算 部 分 SV 行 一 一 SVM 非 线性 核 


图 11-2 ”监督 式 学 习 比 较 
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© 最 大 间隔 分 类 ( 硬 间 隔 ) | 


支持 向 量 机 可 以 用 于 分 类 和 回归 ， 下 面 以 二 分 类 为 例 。 
如 果实 例 是 线性 可 分 类 ， 则 存在 最 大 间隔 分 类 ， 称 为 硬 间 隔 。 
SVM 想 要 解决 以 下 的 问题 : 找 出 一 个 超 平面 Chyperplane) ， 使 之 将 两 个 不 同 的 集合 分 


开 。 


使 用 超 平面 这 个 名 词 ， 因 为 实际 数据 可 能 是 属于 高 维 的 数据 ， 而 超 平面 意 指 在 高 维 中 


的 平面 。 二 维 空间 如 果 没 有 核 函 数 的 转换 ， 超 平面 是 一 条 直线 ， 如 图 11-3 所 示 。 


图 11-3 超 平面 
希望 能 找 出 一 条 线 能 够 将 DO 点 和 A 点 分 开 ， 而 且 还 希 


望 这 条 线 距 离 这 两 个 集合 的 分 类 


间隔 (margin) 或 决策 边界 越 大 越 好 ， 这 样 才能 够 很 明确 地 分 辩 这 个 点 是 属于 哪个 集合 ， 
可 以 缩小 分 类 器 的 泛 化 误差 ， 否 则 在 计算 上 容易 因 精 度 的 问题 而 产生 误差 如 图 11-4 所 示 。 


决策 边界 、、 和 人 、 和 支持 向 量 [Anm 
M A Qiy-1i 
o wl us A @ 支持 向 量 
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Ki- 硬 间 隔 分 类 《〈 硬 间隔 ) 


z 0s Ea 
图 11-4 的 尼 改 为 下 列 w ， 于 是 有 求解 问题 〈 式 11-1) : 


Maximize M 
45.04 0, M 


s.t. x. (o + OX, + OX +--+0,x,)>M, Vizl-n (i 是 样本 纪录 ) 

Eosl 0 是 变量 特征 ) 

Bx, (x15: x) 是 第 i 个 训练 数据 ， 每 个 训练 数据 有 p 个 特征 值 ， 共 有 n 个 样本 
训练 数据 ，y; 是 训练 数据 对 应 目标 变量 标签 {-1,+1} ， 最 优化 M 是 最 大 间隔 。 @%,@,@,,…@， 
是 超 平面 的 系数 。 

(xix sx) ESI. F (o tax +@,x)+--+0,x,)>0, WAWR y =+1 。 
# (eoi +0,x,+--+0,x,)<0, WAWD y =-1. 

HMA ao =(0,0,.--.0,).M=1/ ol = Eo 

优化 问题 〈 式 11-2) : 

Maximize = = Minimize 一 le | 


st. y (o x,+@)>1 Vi=l1,---,n 
如 果 训 练 集 数据 是 线性 可 分 的 ， 可 以 找到 M 和 o, 的 解答 。 


支持 向 量 分 类 ( 软 间 隔 ) 


如 果 训 练 数 据 是 线性 不 可 分 类 ， 找 不 到 线性 超 平面 完全 分 开 两 个 类 型 ， 则 要 加 设 误差 
项 和 成 本 函数 。 
求解 问题 〈 式 11-3) : 


Minimize 2 ^ wal 
2 


st y (ox, a) 210-5). Vi=l1,---,n 
€,20,L¢6,<C 
AH: & HRA: C 是 代价 cost 参 数 或 惩罚 系数 ， 是 hinge 损 失 函 数 (hinge loss) 的 
系数 。 
优化 问题 〈 式 11-4) : 


T 
Minimize ^ + Cy s 


s.t. y,(@"x, *o)210- 2). Vi-l-n 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (FREE) 


&>0 
对 偶 问题 ( 式 11-5》: 
nx 2a - Eso (xix) 

st»'ay,-0 

0<a, «C, vi 
拉 格 朗 日 函数 〈 式 11-6) : 

L(o. e.a. 1) - ol! -CXe,-Xa, [x (ox, +@,)-1+4, ]- Zu 

式 中 x e R?,y eR; i,…,n ECAR MABE) ; n 是 数据 数量 。 
优化 问题 的 变量 ，m esR.osR2?,s eR.|o| = Do?» 
WPS la LAR: a eR" eR". 
利用 KKT 条 件 给 出 原 问题 和 对 偶 问题 的 解 : 

o= Taye, 
满足 KKT 条 件 的 w 0， 其 对 应 的 x 称 为 支持 向 量 。 
支持 向 量 是 在 决策 边境 内 的 训练 数据 : 
Ef(x*)2o'x +@%>0， 则 预测 值 y* =+1; 
#if(x*)=0'x +a <0， 则 预测 值 y =-1 。 
因为 多 数 的 &; =0， 所 以 只 有 & #0 的 支持 向 量 x 加 以 计算 ， 降 低 解答 的 维度 。 
当 s=0， 则 x% 是 在 决策 边界 正确 的 一 边 ， 非 支持 向 量 。 当 s >0， 则 x 是 在 决策 边界 

分 类 空 际 之 内 。 当 s, >1， 则 x 是 在 超 平面 预测 错误 的 一 边 如 图 11-5 所 示 。 


决策 边界 


0<s<1& Mea 
251A e| * 
0A O 非 支持 向 量 


图 11-5 支持 向 量 分 类 〈 软 间隔 ) 


离开 超 平 面 ， 在 决策 边界 以 外 的 训练 数据 的 变化 不 受 SVM 影 响 ， 所 以 SVM 是 鲁 棒 稳 健 
的 。 在 计算 上 节省 空间 和 时 间 。 


2 


支持 向 量 机 求解 : 
(OD 已 知 训练 数据 xs e R^; y, e R;i=1,-…,n 是 已 知 数 〈 训 练 数据 ) ，n 是 数据 数量 。 
(2) EFH (@, + o x, ) e o € R Xll. 
(3) 决定 代价 cost BAC. 
(4) 优化 问题 〈 式 11-4) 。 
C5) 对 偶 问 题 ( 式 11-5) 。 
(6) 拉 格 朗 日 函数 〈 式 11-6) 。 
(7) KKT 条 件 〈 省 略 ) 。 
(8) 求解 eeR.OeRz2eRCeR WER? (BMS) 。 
(9) a, 20 MDI x, 为 支持 向 量 ，S = (x, |x, 支持 向 量 } 。 
C10) 预测 测试 数据 : xem. 
f(x) +a (x",x,) 
GOD 代价 参数 C 越 小 一 分 类 间隔 大 一 支持 向 量 多 一 难以 预测 测试 数据 一 欠 拟 合 。 
代价 参数 C 越 大 一 容许 分 类 错误 越 少 一 支持 向 量 少 一 测试 误差 大 一 过 拟 合 。 


Qo 支持 向 量 机 ( 核 函 数 ) | 


核 函 数 是 非 线 性 映射 ， 将 数据 变换 到 一 个 特征 空间 。 
支持 向 量 机 求解 下 列 最 优 问题 : 

Minimize °° + C» E 

st y (o g(x) +a) > (0-&). VizLosn 
£20 
核 函数 支持 向 量 机 求解 ， 如 上 一 节 支 持 向 量 机 求解 步骤 。 
预测 测试 数据 xz e R^: 
f(x) =@o+ YXK(x.x, ) 


11.4.1. 支持 向 量 机 的 核 函数 


了 常用 的 包 e1071 的 核 函数 有 四 种 ， 如 图 11-6 所 示 : 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Co 径 向 基 核 函数 (D S 核 函数 
图 11-6 Až 


(1) 线性 核 函数 linear kernel: 
K(x.x,)-x'-5, 
(2) 多 项 式 核 函数 polynomial kernel: 
K(x.x,) - (vx7 +x, +7) 
G) (高 斯 ) 径 向 基 核 函数 Radial basis function kernel (RBF) : 
K(x.x ) =exp{- ay Aj j 
(4) S 核 函数 Sigmoid kernel: 
Lg ern) 
高 斯 核 (RBF) 的 两 个 主要 的 参数 : 惩罚 系数 或 代价 参数 C 和 核 函 数 参数 y 或 
o, y-1/2e*. 
RR 语言 包 el071:svm(kernel- "radial", gamma-2)i/f]Z: y = gamma 
RR 语言 包 caret::train(method = "svmRadial") 调 参 : o = sigma 
7 大 或 o 小 一 间隔 小 一 支持 向 量 少 一 训练 误差 小 一 偏差 小 一 过 拟 合 
7 小 或 oc 大 一 间隔 大 一 支持 向 量 多 一 训练 误差 大 一 偏差 大 一 欠 拟 合 


11.4.2 多 元 分 类 支持 向 量 机 


SVM 基本 上 是 基于 二 元 分 类 器 (binary classifier) 的 算法 ， 传 统 SVM 的 模型 ， 只 能 处 理 
一 个 因 变 量 是 二 元 分 类 的 数据 。 多 元 分 类 ， 需 要 利用 标准 SVM 的 计算 过 程 构建 多 个 决策 边 
界 的 多 分 类 目标 变量 。 

SVM 在 多 元 分 类 上 主要 有 两 种 策略 ; 

0 一 对 多 

一 对 多 SVM 对 m 个 分 类 建立 m 个 决策 边界 ， 每 个 决策 边界 判定 一 个 分 类 对 其 余 所 有 分 
类 的 归属 。 针 对 每 一 个 类 别 ， 分 别 建 立 一 个 SVM (或 其 他 二 元 分 类 器 如 kKNN) : 针对 有 m 
个 类 别 的 数据 ， 就 会 有 m 个 SVM。 当 有 一 条 新 数据 要 预测 时 ， 比 较 这 m 个 SVM， 得 到 m 组 
值 ， 再 从 中 判别 最 大 的 值 ， 那 这 条 数据 便 是 属于 那 一 类 。 

一 对 多 的 运行 时 间 与 所 占 内 存 不 会 太 多 。 但 是 ， 会 将 剩 下 类 别 视 为 同一 个 类 别 ， 很 容 
易 导 致 分 类 的 不 平衡 问题 ， 两 类 的 数据 数目 差距 很 大 。 

Python 的 scikit-learn 平台 的 算法 多 数 是 用 一 对 多 的 策略 。 

@ 一 对 一 

对 于 任意 两 个 类 别 都 做 一 个 SVM，m 个 分 类 中 任意 两 个 建立 决策 边界 ， 有 k(k-1)/2 个 
SVM 模型 。 当 有 一 条 新 数据 要 预测 时 ， 比 较 这 TUT1)/2 个 SVM， 每 一 个 SVM 都 会 将 这 笔 数 
据 分 到 某 一 类 ， 再 从 中 选择 最 多 数 ， 即 可 预测 这 笔 数据 属 于 哪 一 个 类 别 。 

一 对 一 的 策略 比较 并 不 会 造成 类 别 不 平衡 的 问题 。 但 是 所 需 的 运行 时 间 较 长 ， 也 需要 
较 多 的 内 存 ， 如 果 发 生 两 个 以 上 的 类 别 获得 同 票数 的 状况 ， 会 造成 判断 上 的 困扰 。 

R 语 言 包 e1071 的 libsvm 使 用 一 对 一 的 策略 。 


o 支持 向 量 机 的 优点 和 缺点 


Q 支持 向 量 机 的 优点 

(1) 可 以 用 于 分 类 和 回归 预测 。 

(2) 有 清楚 的 分 类 间隔 。 

(3) 适用 于 高 维 数据 ， 变 量 特征 数目 大 于 样本 实例 数目 。 

(4). 决策 预测 函数 只 要 用 部 分 训练 数据 (支持 向 量 ) 。 

(5) 不 会 被 躁 声 影响 ， 也 不 容易 过 拟 合 。SVM 是 一 个 鲁 棒 稳 健 的 模型 。 
(6) 因为 有 一 些 良好 SVM 算法 支持 ， 可 能 比 神经 网 络 算法 容易 使 用 。 
CD 对 多 数 训练 数据 ， 分 类 效果 比 其 他 分 类 器 要 好 。 


[KERNS 
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(8) 分 类 的 超 平面 ， 拥 有 最 大 间隔 的 特性 。 

(9) 可 以 很 容易 透 过 更 换 核 函 数 ， 做 出 非 线性 的 分 类 决策 边界 。 

O 支持 向 量 机 的 缺点 

(1) 要 找 最 优 模型 需要 测试 核 函数 和 模型 参数 的 各 种 组 合 。 

(2) 数据 样本 和 特征 很 大 训练 很 慢 效 能 较 不 佳 ， 计 算 复杂 度 为 O0m)。 

G) SVM 是 一 个 复杂 的 黑 盒 模型 难以 解释 。 

(4) SVM 模型 没有 直接 给 出 分 类 预测 的 概率 。 可 以 利用 5 折 CV， 计 算 很 久 。 


支持 向 量 机 RR 语言 应 用 


支持 向 量 机 的 R 语 言 应 用 通常 使 用 e1071 包 的 svm 函 数 : 


m «- svm(x, y, data, type-c-classification, kernel-"linear", 
cost=10 , scale=FALSE) 


> 

+ 

> # m <- svm(y ~ ., data) 
> pred «- predict (model, x) 
> 


# pred «- fitted (model) 
type = 根据 因 变 量 y 是 否 为 因子 ，type 选 择 C-classification 或 eps-regression。 
R 语 言 e1071 包 svm 函 数 的 核 函 数 : 
C1) 线性 核 函 数 linear kernel: 9(u,v)-u^ v. 
(2) 多 项 式 核 函 数 polynomial kernel: $(u.v)— (nv + coef o)" 。 
GO (高 斯 ) 径 向 基 核 函数 Radial basis function kernel: ø(u,v)= exp[-7 u- X] " 
(4) S 核 函数 Sigmoid kernel: ¢(u.v)= tanh(yu?v * coef 0) > 
svm 函 数 的 核 函 数 的 参数 默认 值 如 表 11-1 所 示 。 


表 11-1 svm 函 数 的 核 函 数 的 参数 默认 值 
svm 默 认 值 degree | gamma y 


V 〈x 行 的 数目 ) 


(高 斯 ) 径 向 基 核 
radial 


V (x 行 的 数目 》 


V(X 行 的 数目 ) 


11.6.1 随机 正 态 分 布 数据 线性 核 函数 


xl, x2, y 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
+ 
> 
> 
> 


# R 例 11 .1 

library(el071); library(ROCR); set.seed(100); x «- NULL; y «- NULL 
x <- matrix(rnorm(20*2), ncol-2) ; y «- c(rep(-1,10), rep(1,10)) 
x[y==1, ]=x[y==1,]+1 ; plot(x, col-(3-y)) 

(dat «- data.frame(x-x, y-as.factor(y))) 

svmfit «- svm(y-.,data-dat, kernel- "linear", cost-10,scale-FALSE) 
plot(svmfit, dat) # 图 11-7 

svmfit$index ; summary (svmfit) 

xtest «- matrix(rnorm(20*2), ncol-2) ; 

ytest «- sample(c(-1,1),20, rep-TRUE) 

xtest[ytest--1,]- xtest[ytest--1,]-41 

datest «- data.frame(x-xtest, y-as.factor(ytest)) 

ypred «- predict (svmfit, datest) 

table(predict-ypred, truth-ytest) 

svmfit «- svm(y-.,data-dat, kernel-"linear", cost-0.01 , scale-FALSE) 
ypred <- predict (svmfit, datest) 

table(predict-ypred, truth-ytest) ; set.seed(100) 

tune.cost «- tune(svm, y-. , data - dat, kernel-"linear", 
ranges-list (cost-c(0.001,0.01,0.1,1,2,10,100))) 

summary(tune.cost) ; bestmodel-tune.cost$best.model 

summary (bestmodel) ; bestmodel ; ypred <- predict (bestmodel, datest) 
table(predict-ypred, truth-ytest) 
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图 11-7 ”两 个 变量 线性 SVM 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


11.6.2 ”随机 正 态 分 布 数据 径 向 基 核 函数 


[ 11 morn m， 


dat 数据 框 格式 data.frame: 200 个 观察 值 ”3 个 变量 
xl, x2, y 


> # R 例 11.2 

set.seed(2019) ; x «- NULL ; y <- NULL 

x «- matrix(rnorm(200*2), ncol-2) 

x[1:100,]-x[1:100,]42 ;x[101:150,]-x[101:150,]-2 

y <- c(rep(1,150), rep(2,50)) 

(dat «- data.frame(x-x, y-as.factor(y))) 

par(mfrow-c(1,1)) ; plot(x, col-y) 

train «-sample (200,100) 

svmfit <- svm(y-.,data-dat[train,], + kernel-"radial", gamma-1,cost-1) 
plot(svmfit, dat[train,]) # 图 11-8 

svmfit$index ; summary (svmfit) 

svmfit «- svm(y-.,data-dat[train,], kernel-"radial", gamma-1,cost-1e5) 
plot (svmfit, dat[train,]) # 图 11-9 

summary (svmfit) ; set.seed(1) 

tune.rad <- tune(svm, y~. , data = dat[train,], kernel-"radial", 
ranges=list (cost=c(0.1,1,2,10,100,100), gamma=c(0.5,1,2,3,4))) 
summary (tune. rad) 

table (true=dat[-train,"y"], pred=predict (tune. rad$best.model, 
newdata-dat [-train,])) 

rocplot-function(pred, truth,...)(predob-prediction(pred, truth) 
perf = performance(predob, "fpr", "tpr") 

plot(perf,...) } 

svmfit.opt «- svm(y-., data-dat[train,], kernel-"radial", gamma-2, 
cost=1, decision.values-T) 

fitted-attributes (predict (svmfit .opt, dat[train,], 
decision.values-T))$decision.values 

par (mfrow-c(1,2)) 

rocplot (fitted，dat [train，"y"] ，main=" 训 练 数据 ") # 图 11-10 
svmfit.out <- svm(y-., data-dat[train,], kernel-"radial", gamma-50, 
cost=1, decision.values-T) 

fitted-attributes (predict (svmfit.out, dat[train,], 
decision.values=T) ) $decision.values 

rocplot (fitted, dat[train, "y"], add=T, col-"red") # 图 11-11 
svmfit.opt <- svm(y~., data=dat[train,], kernel="radial", gamma=2, 
cost=1, decision.values=T) 


fitted=attributes (predict (svmfit.opt, dat[-train,], 


Vot MM c Ft OM + VV V+ Vt Vv t VF Vv EVV EVV NV NN NN NN NN NNNM 


ve Vv + 


decision. values=T) ) $decision. values 
rocplot (fitted, dat[-train, "y"], main=" 测 试 数据 ") 
fitted=attributes (predict (svmfit.out, dat[-train,], 


decision.values-T))$decision.values 


rocplot(fitted, dat[-train, "y"], add-T, col-"red") 
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SVM classification plot 
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图 11-8 radial 核 cost=1 


SVM classification plot 
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图 11-9 radialfZcost-1e5 


/大 话 数据 科学 


之 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 
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图 11-10 训练 数据 ROC 
测试 数据 
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图 11-11 测试 数据 ROC 


11.6.3 ”三 分 类 数据 径 向 基 核 函数 


[ R 例 1 
dat 数据 框 格式 data.frame: 300 个 观察 值 ”3 个 变量 
xl, x2, y 


# R 例 11.3 

set.seed(100) ; x <- NULL ; y <- NULL 

x <- matrix(rnorm(300*2), ncol-2) ; x[1:100,]=x[1:100,]+2 
x[101:150,]-x[101:150,]-1 ; x[201:300,]=x[201:300,]-2 

y <- c(rep(1,150), rep(2,100), rep(0,50)) 

(dat «- data.frame(x-x, y-as.factor(y))) ; x[y==0,2]=x[y==0,2]+4 
(dat «- data.frame(x-x, y-as.factor(y))) 


par(mfrow-c(1,1)) ; plot(x, col=(y+1)) 


WoW WW Oe N VONT ONE 


svmfit «- svm(y-., data-dat, kernel-"radial", gamma-1, cost-10) 
> plot(svmfit, dat) ;  svmfit$index ; summary (svmfit) 


如 图 11-12 所 示 。 


SVM classification plot 


x1 


x2 


图 11-12 radialfZcost-10 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实战 (SFREE) 


R 语 言 实战 


11.7.1 ”基因 表达 数据 


【R 例 11.4 】 基 因 表达 数据 Khan.csv， 函 数 svm， 包 e1071 

Khan 基因 表达 数据 ， 是 列表 list 格式 ， 包 含 : xtrain、xtrain、ytrain 和 ytrain。 

xtrain 是 训练 集 ，63 名 受 试 者 的 2308 基 因 表达 值 ，ytrain 是 相应 的 四 种 肿瘤 类 型 。 

xtest 是 测试 集 ， 包 含 另 外 20 名 受 试 者 的 2308 基 因 表 达 值 ，ytest 是 相应 的 四 种 肿瘤 
类 型 。 


> # R 例 11.4 
> if(!require(ISLR)) {install.packages ("ISLR")} 
> library(ISLR) ; data(Khan) ; str(Khan) ; names (Khan) 
> table(Khan$ytrain) ; table(Khan$ytest) 
> dim(Khan$xtrain) ; length (Khan$ytrain) 
> dat «-data.frame(x-Khan$xtrain, y-as.factor(Khan$ytrain)) 
» fit«- svm(y-.,data-dat, kernel-"linear",cost-10) 
» plot(fit, dat) ; summary (fit) 
> table (fit$fitted, dat$y) 
> dat.te «-data.frame(x-Khan$xtest, y=as.factor(Khan$ytest) ) 
> pred.te <- predict (fit, newdata-dat.te) 
> table(pred.te, dat.te$y) 
»d 训练 集 混淆 矩阵 测试 集 混淆 矩阵 
12 3 4 pred.te 12 3 4 
18 00 0 13000 
2.023 0 0 20620 
3 0012 0 30040 
4 0 0 020 40005 


11.7.2 SJES 


【R 例 11.5 】 SVM: 数据 iris.csv， 函 数 tune.svm、train， 包 e1071 


# R 例 11.5 
if (!require (ISLR) ) {install.packages ("ISLR") } 
library(el071) ; data(iris) 


x <- subset(iris, select = -Species) 
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y <- iris$Species 


model «- svm(x, y) ; pred result «- predict (model, x) 

table (pred result, y) 

plot(model, iris, Petal.Width ~ Petal.Length, slice = list(Petal.Width 
= 3, Petal.Length = 4), color.palette = terrain.colors) 

plot(model, iris, Sepal.Width - Petal.Width, slice - list(Sepal.Length 
= 3, Petal.Length = 4), color.palette = terrain.colors) 

data(iris) ; m2 «- svm(Species-., data = iris) 

plot(m2, iris, Petal.Width ~ Petal.Length, 

slice = list(Sepal.Width = 3, Sepal.Length = 4)) 
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SVM classification plot 
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+ R 例 11.6 
if (!require (MASS) ) (install.packages ("MASS") } 


library(MASS) ; rm(list-ls(all-TRUE)) ; data(cats) 
library(el071) ; str(cats) 

SVM RBF Model «- svm(Sex-., data — cats) 
plot(SVM RBF Model,data-cats, color.palette — topo.colors) 
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SVM Linear Model «- svm(Sex~., data = cats,kernel-"linear") 


/ 估 话 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


> plot (SVM Linear Model,data-catscolor.palette = topo.colors) 

> obj «- tune.svm(Sex-., data = cats, sampling - "fix", 

+ gamma = 2^c(-8,-4,0,4), cost 2^6(-8,-4, -2,0)) 

> plot(obj, transform.x = log2, transform.y = log2) 

> plot(obj, type = "perspective", theta = 120, phi = 45) 

» obj ; m «- svm(Sex-., data - cats) 

» plot(m, cats) 

> plot(m, cats, svSymbol = , dataSymbol = 2, symbolPalette = 
* rainbow(4), color.palette - terrain.colors) 

> # 图 11-14， 图 11-15 
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11.7.4 RBE 


+ R 例 11.7 


if(!require (class) ) {install.packages ("class") } 


if (!require (kernlab) ) {install.packages ("kernlab") } 

library(class) ; library(kknn) ; library(el071) ; library(kernlab) 
library(caret) ; library (MASS) ; library(reshape2) ; library (ggplot2) 
library(pROC) ; data(Pima.tr) ; str(Pima.tr) ; data(Pima.te) 
str(Pima.te) ; pima «- rbind(Pima.tr, Pima.te) ; str(pima) 

pima.melt «- melt(pima, id.var - "type") 

pima.scale «- data.frame(scale(pima[, -8])) 

pima.scale$type «- pima$type ; cor(pima.scale[-8]) 
table(pima.scale$type) ;  set.seed(502) 

ind «- sample(2, nrow(pima.scale), replace = TRUE, prob = c(0.7, 0.3)) 
train <- pima.scale[ind == 1, ] ; test <- pima.scale[ind == 2, ] 


set.seed(113) 


we eoe x6 MC ow wow c NN UNE 


linear.tune «- tune.svm(type ~ ., data = train, kernel = "linear", 


/大 话 数据 科学 
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了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


cost = c(0.001, 0.01, 0.1, 1, 5, 10)) 
summary(linear.tune) ; best.linear «- linear.tune$best.model 
tune.test «- predict(best.linear, newdata - test) 

table(tune.test, test$type) ; set.seed(123) 

poly.tune «- tune.svm(type ~ ., data = train, kernel = "polynomial", 
degree = c(3, 4, 5), coef0 = c(0.1, 0.5, 1, 2, 3, 4)) 
summary(poly.tune) ; best.poly «- poly.tune$best.model 

poly.test «- predict(best.poly, newdata - test) 

table(poly.test, test$type) ; set.seed(123) 

rbf.tune «- tune.svm(type - ., data - train, kernel - "radial", 
gamma — c(0.1, 0.5, 1, 2, 3, 4)) 

summary(rbf.tune) ; best.rbf <- rbf.tune$best.model 

rbf.test «- predict(best.rbf, newdata - test) 

table(rbf.test, test$type) ; set.seed(123) 

sigmoid.tune «- tune.svm(type - ., data - train, kernel - "sigmoid", 
gamma = c(0.1, 0.5, 1, 2, 3, 4), coefO = c(0.1, 0.5, 1, 2, 3, DY 
summary (sigmoid.tune) ; best.sigmoid <- sigmoid.tune$best.model 
sigmoid.test «- predict(best.sigmoid, newdata - test) 
table(sigmoid.test, test$type) 

confusionMatrix(sigmoid.test, test$type, positive = "Yes") 


confusionMatrix(tune.test, test$type, positive - "Yes") 


# R 例 11-8 
library(tidyverse) ; library (caret) 


data("PimaIndiansDiabetes2", package - "mlbench") 

pima2 «- na.omit(PimaIndiansDiabetes2) ;  set.seed(100 

tr «- pima2$diabetes %>% createDataPartition(p-0.7, list-FALSE) 
train «- pima2[tr, ] ; test «- pima2[-tr, ] ; set.seed(100 
model «- train(diabetes ~., data = train, method = "svmLinear", 
trControl - trainControl("cv", number - 10), preProcess 

= c("center","scale") ) # 数据 正规 化 cV 线性 支持 向 量 机 模型 

predict «- model %>% predict(test) ; head(predict) # 预测 测试 数据 
mean(predict == test$diabetes) # 模型 测试 集 正 确 率 ; set.seed(100) 
model «- train(diabetes -., data = train, method = "svmLinear", 
trControl = trainControl("cv", number = 10), 

tuneGrid = expand.grid(C = seq(0, 2, length = 20)), 

preProcess = c("center","scale")) 
plot (model) # 图 11-16 不同 成 本 系数 的 模型 正确 率 
model$bestTune # 最 适 svmLinear 模型 


+ WE C = cost 系数 ， 使 训练 集 正确 率 最 大 
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predict «- model %>% predict(test) # 预测 测试 数据 
mean(predict == test$diabetes) 4 模型 测试 集 正确 率 ; set.seed(100) 
# svmRadial 径 向 基 核 SVM 模型 训练 集 


model «- train(diabetes -., data = train, method = "svmRadial", 


trControl = trainControl("cv", number = 10), 

preProcess = c("center","scale"), tuneLength = 10 ) 
model$bestTune # 最 适 svmRadial 模型 

t WS sigma = 1 / gamma AR, C = cost 系数 ， 使 训练 集 正确 率 最 大 
predict <- model %>% predict (test) # 预测 测试 集 

mean (predict == test$diabetes) # 模型 测试 集 正确 率 

# svmPoly 多 项 式 核 SVM 模 型 训练 集 

set.seed(100) 


model «- train(diabetes -., data - train, method - "svmPoly", 


trControl - trainControl("cv", number - 10), 

preProcess - c("center","scale"), tuneLength - 4 ) 
model$bestTune # 最 适 svmPoly 模型 ， 调 参 degree = 多 项 式 的 次 数 
+ WB scale = gamma 系数 ，C = cost 系数 ， 使 训练 集 正确 率 最 大 
predict <- model %>% predict(test) # 预测 测试 集 

mean(predict == test$diabetes) # 模型 测试 集 正确 率 
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图 11-16， 调 参 成 本 系数 的 模型 正确 率 


/状语 数据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


11.7.5 ”字符 数据 


Cc gcccr 


图 11-17 字符 数据 


数据 框 格 式 data.frame: 20000 个 观察 值 17 个 变量 

letter : Factor w/ 26 levels “A”，”B”，”C”，”D”，…，“Z”; A=1，B=2， 
C73, .4 Z-26 

变量 letter, xbox, ybox, width, height, onpix, xbar, ybar, x2bar, y2bar, 


xybar, x2ybar, xy2bar, xedge, xedgey, yedge, yedgex 


# R 例 11.9 

if (!require(kernlab) ) {install.packages ("kernlab")} 
library(kernlab) ; letters <- read.csv("C://R/letterdata.csv") 
str(letters) ; train «- letters[1:16000, ] 

test <- letters[16001:20000, ] 

class <- ksvm(letter ~ ., data = train, kernel = "vanilladot") 
class ; pred <- predict(class, test) ; head(pred) 

table(pred, test$letter) 

agree <- pred == test$letter 

table(agree) ; prop.table(table(agree)) ; set.seed(12345) 

rbf «- ksvm(letter ~ ., data = train, kernel = "rbfdot") 

pred rbf <- predict (rbf, test) 

agree rbf «- pred rbf == test$letter 

table(agree rbf) 
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prop.table(table(agree rbf)) 
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11.7.6 ”玻璃 数据 


数据 框 格式 data.frame: 214 个 观察 值 ”10 个 变量 
玻璃 材质 的 化 学 元 素 含量 : RI, Na, Mg, Al, Si, K, Ca, Ba, Fe, Type: 6 个 水 平 
的 因子 6 种 玻璃 材质 


> # R 例 11.10 

if(!require (mlbench)) {install.packages ("mlbench") } 
library(mlbench) ; library (e1071) 

data(Glass, package="mlbench") ; data = Glass ; str(data) 
smp.size = floor(0.8*nrow(data)) ; set.seed(516) 

tr = sample (seq_len(nrow(data)), smp.size) 

train = data[tr, ] ; test = data[-tr, ] 

model = svm (formula = Type ~ ., data = train) ; summary (model) 
train.pred = predict (model, train) ; test.pred = predict (model, test) 
table (real=train$Type, predict-train.pred) 

confus.matrix = table(real=train$Type, predict=train.pred) 

sum (diag (confus.matrix) ) /sum(confus.matrix) 

table (real=test$Type, predict=test.pred) 

confus.matrix = table(real=test$Type, predict=test.pred) 


sum (diag (confus.matrix) ) /sum(confus.matrix) 


data = data.frame (x= A 


y56(3,4,8,2,6, 10,12, 13, 15, 14,17, 18,20, 17,21,22,25,30,29,31)j 
plot(data$x, data$y, pch-16, xlab: ", ylab-"Y") 
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/大 语 数 据 科学 


大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


model <- lm(y ~ x , data) ; lm.pred = predict (model, data) 

plot(data$x, data$y, pch-16, xlab-"X", ylab="Y") 

points(lm.pred, pch-2, col-"red") ; abline (model, col="red") 

model «- svm(y ~ x , data) ; svr.pred = predict (model, data) 
plot(data$x, data$y, pch-16, xlab-"X", ylab-"Y") 

points(svr.pred, pch-4, col-"blue") ; points(1m.pred, pch-2, col="red") 
c(sqrt(mean((data$y - lm.pred)^2)), sqrt(mean((data$y - svr.pred)^2))) 
require("mlbench") ; data(Glass, package-"mlbench") ; data - Glass 

num.SV = sapply (X-1:1000, 

FUN-function(C) svm(Type-., data, cost=C, epsilon -.1)$tot.nsSV) 
plot(x-1:1000, y-num.SV, xlab-"C value", ylab="# of support vectors", 
pch-16, cex=.5, main="# of SVs in soft-margin SVM") 
df = data.frame (x=1:20, 

y7c(3,4,8,2,6,10,12,13,15,14,17,18,20,17,21,22,25,30,29,31)) 

num.SV = sapply(X-seq(0,1,0.01), 

FUN-function(e) svm(y~x, df, cost-1, epsilon =e) $tot.nsv) 
plot (x=seq(0,1,0.01), y=num.SV, xlab="e value", ylab="# of support 

vectors", pch-16, cex=.5, main="# of SVs in SVR") 

RMSE = sapply(X-seq(0,1,0.01), FUN-function(e) sqrt(mean((svm(y~x, df, 
cost-1, epsilon =e) $residuals)^2))) 

plot (x=seq(0,1,0.01), y-RMSE, xlab="e value", ylab="RMSE", 

pch=16, cex=.5, main="RMSE in SVR") 

data = Glass ; smp.size = floor(0.8*nrow(data)) ; set.seed(123) 
train.ind = sample(seq_len(nrow(data)), smp.size) 

train = data[train.ind, ] ; test = data[-train.ind, ] 
train.accuracy = sapply(X-seq(0.1,10,0.1), FUN=function (g) { 

model = svm(Type~., train, gamma=g, epsilon =.1) 

pred = predict (model, train) 

confus.matrix = table(real=train$Type, predict=pred) 
sum(diag(confus.matrix))/sum(confus.matrix) } ) 

test.accuracy = sapply(X-seq(0.1,10,0.1), FUN=function(g) { 

model = svm(Type~., train, gamma=g, epsilon =.1) 

pred = predict (model, test) 

confus.matrix = table(real-test$Type, predict=pred) 

sum (diag (confus.matrix) )/sum(confus.matrix) ) ) 
plot (x=seq(0.1,10,0.1), y=train.accuracy, pch-16, cex=.5, col-"red", 
ylim=c(0,1),xlab="gamma value", ylab="Class Accuracy", 
main="SVM 软 间隔 正确 率 ") 
points(x-seq(0.1,10,0.1), y-test.accuracy, pch-16, cex-.5, col-"blue") 
legend("bottomright", pch = 16, col = c("red","blue") , legend=c ("Train- 
Accuracy", "Test-Accuracy") 
tune.model = tune(svm, Type-., data-data, kernel-"radial", 


range-list (cost-10^(-1:2), gamma=c(.5,1,2))) 
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summary(tune.model) ; plot(tune.model) ; tune.model$best.model 
## SVM 回归 

data = data.frame(x-1:20, 

y=c (3,4,8,2,6,10,12,13,15,14,17,18,20,17,21,22,25,30,29,31)) 


r22, 


tune.model = tune(svm, y-x, data=data, 
range-list(cost-2^(2:9), epsilon = seq(0,1,0.1))) 


tune.model; tune.model$best.model; plot (tune.model) 


/大 语 数 据 科学 
了 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) | 


本 章 思维 导 图 
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SRE iris 数据 : R 例 11.5 
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| 玻璃 Glass 数据 : R 例 11.10 
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三 个 臭 皮 匠 ， 胜 过 一 个 诸葛 亮 。 


一 一 俗语 ， 源 自 《 三 国 演义 》 
夫 参 署 者 ， 集 众 思 ， 广 忠 益 也 。 
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/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


Qo 集成 学 习 介 绍 


集成 学 习 (ensemble learning) 是 将 数 个 学 习 器 集合 起 来 ， 可 以 成 为 一 个 预测 能 力 更 准 
确 的 学 习 器 。 这 就 是 ， 三 个 臭 皮 匠 ， 胜 过 一 个 诸葛 亮 。 
集成 学 习 是 后 设 学 习 (meta learning) 、 整 合 学 习 、 关 于 学 习 的 学 习 、 超 越 学 习 的 
学 习 。 
在 统计 学 ， 当 on 个 数值 x,， 每 个 数值 是 随机 变量 均值 yy ， 标 准 差 c， 成 相同 的 独立 分 
布 ， 则 其 平均 数 卫 的 抽样 平均 著 的 平均 和 方差 : 
E(X)-u 
V(X)-o /n 
假定 有 B 个 学 习 器 ， 产 是 每 个 学 习 器 的 预测 结果 ; 


预测 结果 的 方差 : 
"(*)- Èr) e»t) 


如 果 模 型 是 分 类 目标 值 ， 集 成 学 习 就 将 学 习 器 的 预测 结果 ， 投 票 取 最 多 值 。 

如 果 模 型 是 回归 目标 值 ， 集 成 学 习 就 将 学 习 器 的 预测 结果 ， 平 均 取 平均 值 。 

集成 学 习 可 以 分 为 三 类 : FAH “448” (Bootstrap AGGregatING, Bagging) ， 即 
利用 自助 采样 的 方法 ， 生 成 众多 个 并 行 式 的 分 类 器 ， 通 过 “少数 服从 多 数 ” 的 原则 来 确定 
最 终 的 结果 ， 随 机 森林 属于 这 种 算法 ， 第 二 类 为 “提升 ” (Boosting) ， 通 过 将 弱 学 习 器 
提升 为 强 学 习 器 的 集成 方法 来 提高 预测 精度 (典型 算法 为 AdaBoost) ; 第 三 类 是 “ 堆 迭 ” 
(Stacking) ， 将 不 同 的 模型 (分 类 方法 ) 集成 融合 。 

在 模型 的 偏差 和 方差 的 议题 上 ，Bagging 是 减少 低 偏差 、 强 模型 的 方差 ， 而 Boosting 是 
减少 高 偏差 、 弱 模型 的 偏差 。 


个 别 分 类 方法 评价 


从 第 7 章 到 第 11 章 介绍 了 五 种 分 类 的 方法 : Logistic 回 归 、 近 邻 法 k-NN、 贝 叶 斯 分 类 
Naive Bayes、 决 策 树 Decision Tree、 支 持 向 量 机 SVM， 还 有 神经 网 络 Neural Network。 在 
说 明 集成 学 习 之 前 ， 先 将 这 些 方法 分 别 比较 一 下 。 


甲状 腺 功能 数据 


Hypothroic E 
数据 框 格式 data.frame: 3163 个 观察 值 ”26 个 变量 
Hypothyroid (目标 变量 ， 因 子 ‘Hypothyroid’ , ‘negative’ ) , 
Age, Gender, On Thyroxine, Query on Thyroxine, 


On Antithyroid Medication, Thyroid Surgery, Query Hypothyroid, 
Query Hyperthyroid, Pregnant, Sick, Tumor, Lithium, Goitre, 
TSH measured, TSH, T3 measured, T3, TT4 measured, TT4, 
T4U measured, T4U, FTI measured, FTI, TBG measured, TBG 


> # RBl12.1 

# 甲状 腺 功能 Hypothroid Dataset 

if (!require (FNN) ) {install.packages ("FNN")) ; library (FNN) 
if(!require(el071))(install.packages ("e1071")} ; library(e1071 


if (!require (rpart) ) {install.packages("rpart")} ; library(rpart) 


if (!require (nnet) ) {install.packages("nnet")} ; library (nnet) 


ww a ONE 


HT <- read.csv("C:/R/Hypothyroid.csv",header = TRUE, 


+ 


stringsAsFactors = F) 

str(HT) ; HT$Hypothyroid <- as.factor (HT$Hypothyroid) 

HT1 <- HT[,c("Hypothyroid", "Age", "Gender", "TSH", "T3","TT4", "T4U", "FTI") ] 
sapply (HT1, function (x) sum(is.na(x))) 

HT1 «- na.omit (HT1) ; set.seed(100) 

Train Test «- sample(c("Train","Test"),nrow(HTl),replace = TRUE, 
prob = c(0.7,0.3)) 

HT1 Train <- HT1 (Train Test--"Train",] 

HT1 TestX <- within(HTl[Train Test--"Test",],rm(Hypothyroid)) 
HT1 TestY <- HTl[Train Test--"Test",c("Hypothyroid")] 

HT1 Formula «- as.formula ("Hypothyroid-.") 

ntr <- nrow(HTl Train) # 训练 集 样本 数 


V V V VOV o *-t VON OV VOM 


/大 话 数据 科学 


+ VY VV VY VV VV VV VV VV VV VV VV VV VV VV + VY VV VV VV VV VY vv 


二 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


nte <- nrow(HTl TestX) # 测试 集 样本 数 

p <- ncol(HT1l TestX) 

testY numeric <- as.numeric(HTl TestY) 

4 Logistic 回 归 Logistic Regression 

LR fit <- glm(HTl Formula,data-HT1 Train, family = binomial()) 
summary (LR fit) 

LR pred <- predict (LR fit,newdata-HTl TestX,type-"response") 
LR pred Bin «- ifelse(LR_pred>0.5,2,1) 


LR Acc <- sum(LR pred Bin--testY numeric) /nte 


LR Acc 
# 近邻 法 kNN 

HT1 Train$Hypothyroid = as.factor(HTl Train$Hypothyroid) 

kNN fit <- knn(train-HTl Train[,-c(1,3)], test- HT1 TestX[,-c(2)], 


cl- HTl Train $ Hypothyroid, k=5) 

kNN Acc <- confusionMatrix(kNN fit, HTl_TestY) $overall[1] 
kNN Acc 

4 贝 叶 斯 分 类 Naive Bayes 

NB fit <- naiveBayes(HTl Formula,data-HTl Train) 

NB pred «- predict (NB fit,newdata-HTl TestX) 

NB Acc <- sum(NB pred--HTl TestY)/nte 

NB Acc 

# 决策 树 Decision Tree 

DT fit <- rpart(HT1 Formula,data-HTl Train) 

plot (DT fit,uniform-TRUE) 

text(DT fit) 

DT pred <- predict (DT fit,newdata-HT1l TestX,type-"class") 
DT Acc <- sum(DT pred--HT1 TestY)/nte 

DT Acc 

# 支持 向 量 机 support Vector Machine 

SVM fit <- svm(HTl_Formula,data=HT1_Train) 

SVM pred <- predict (SVM fit, newdata=HT1_Testx, type="class") 
SVM Acc <- sum(SVM pred--HTl TestY) /nte 

SVM Acc 

* 神经 网 络 Neural Network 

set.seed(100) 

NN fit <- nnet(HTl Formula,data = HT1 Train,size-p,trace-FALSE) 
NN pred <- predict (NN_fit, newdata=HT1l_ TestX,type-"class") 
HT1 TestY)/nte 


NN Acc <- sum(NN_pred== 
NN Acc 

Acc Mat «- matrix (nrow=6,ncol=2) 

Acc Mat[,1] «- c ("回归 Logistic Regression", "近邻 法 k NN"," 贝 叶 斯 分 类 
Naive Bayes"，" 决 策 树 Decision Tree", "支持 向 量 机 Support Vector Machine" 


+ "神经 网 络 Neural Network") 
> Acc Mat[,2] <- round(c(LR Acc,kNN Acc,NB Acc,DT Acc,SVM Acc,NN Acc),4) 


» Acc Mat 
til [,2] 
[1,] " 回 娄 Logisric Regression" "0.9778" 
I2,] "近邻 法 k NN" "0.9826" 
[3,1 " 贝 叶 斯 分 类 Naive Bayes" "0.9731" 
[4,] "决策 树 pecision Tree" "0.9889" 
[5,] "支持 向 量 机 Support Vector Machine" "0.9778" 
[6,] "神经 网 络 Neural Network" "0.981" 


Qo Bagging 学 习 


Bagging 译 为 “ 装 袋 法 ”， 就 是 将 数据 装 成 一 个 个 袋子 ， 好 像 树木 的 袋子 ， 然 后 将 每 个 
袋子 的 结果 结合 在 一 起 。 所 以 Bagging 的 模型 是 并 行进 行 的 ， 主 要 是 减少 方差 。 当 每 个 子 集 
数据 在 建 模 的 时 候 ， 都 是 “ 强 模型 ” 较 复杂 的 模型 )， 具 有 低 偏差 、 高 方差 的 特性 ， 把 
不 同 高 方差 的 模型 结合 在 一 起 后 ， 因 为 是 平均 投票) 的 概念 ， 其 结果 就 会 趋 近 于 整体 的 
平均 表现 ， 因 此 方差 就 降低 了 。 

Bagging 是 将 样本 重复 抽样 (而 Bootstrap 是 取 后 放 回 ) ， 产 生 多 个 子 数据 集 后 ， 依 序 建 
立 多 个 模型 ， 最 后 再 将 所 有 模型 的 结果 汇总 在 一 起 。 如 果 是 预测 回归 问题 ， 就 把 所 有 结果 
平均 起 来 ， 如 果 是 分 类 问题 ， 就 用 投票 法 ， 判 断 哪个 类 别 出 现 最 多 次 。 


Bagging 算 法 步骤 


Bagging 算 法 步骤 如 图 12-1 所 示 。 


训练 集 


bootstrap 


训练 子 集 2 一 模型 2 测试 集 预 测 疡 投票 


或 平均 


训练 子 集 8 H| 模型 B | | 测试 集 预 测 疡 ] 
图 12-1 Bagging 算 法 


COD 从 数据 中 以 重 置 式 随机 采样 N 个 样本 为 训练 集 ， 自 助 采 样 样 本 bootstrap sample. 
(2) 将 训练 数据 建立 分 类 树 。 
G) 计算 每 个 时 节点 的 预测 值 〈 预 测 分 枝 ) 。 


/大 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


(4) 找 出 袋 外 (OOB) 数据 作 测 试 数据 ， 利 用 决策 树 模 型 预测 。 

(5) (1) — OD 步 重 复 B 次 数 ， 如 B= 1000 次 。 

(6) B 个 预测 值 取 其 投票 多 数 的 分 类 值 ， 即 为 测试 及 最 终 预 测 分 类 结果 。 

(7) 进行 Bagging 结 果 的 评价 。 

Bagging 的 优点 在 于 原始 训练 样本 中 有 噪声 数据 〈 不 好 的 数据 ) ， 透 过 Bagging 抽 样 就 
有 机 会 不 让 噪声 数据 被 训练 到 ， 所 以 可 以 降低 模型 的 不 稳定 性 ， 主 要 是 由 自助 采样 且 并 行 
了 次 。 


Q 随机 森林 


12.4.1 随机 森林 介绍 


随机 森林 (Random forest) 是 运用 Bagging 加 CART 决 策 树 ， 也 就 是 说 模型 1 至 模型 B 都 
是 用 决策 树 来 建 模 ， 因 很 多 棵 的 树 组 合 在 一 起 ， 所 以 才 称 为 “森林 ”。 

随机 森林 在 抽样 过 程 中 ， 不 只 对 行 样本 进行 抽样 ， 同 时 也 会 对 列 变量 抽样 ， 因 此 产生 
的 子 集 数据 ， 其 实 是 对 行 跟 列 抽样 后 的 结果 。 然 后 再 对 这 些 子 集资 料 ， 各 自 训练 一 棵 决策 
树 ， 形 成 随机 森林 如 图 12-2 所 示 。 


图 12-2 ”随机 森林 


在 面 对 数 据 中 有 共 线 性 (collinearity) 跟 类 别 不 平衡 〈class imbalance problem) ， 这 些 
问题 会 对 预测 结果 造成 不 良 影响 时 ， 随 机 森林 是 广 被 采用 的 算法 。 其 概念 应 该 不 难 理解 : 
对 行 抽样 ， 可 以 部 分 解决 类 别 不 平衡 影响 预测 的 问题 ， 对 列 抽样 ， 可 以 部 分 解决 共 线性 影 
响 预 测 的 问题 。 


12.4.2 ”随机 森林 算法 步骤 


随机 森林 算法 步骤 如 下 : 

(1) 从 〈 训 练 ) 数据 以 重 置式 随机 采样 N 个 样本 。 

(2) 从 预测 变量 以 不 重 置式 随机 采样 m 个 特征 。 

(3) 得 到 第 一 个 分 割 的 训练 数据 。 

(4) 给 出 不 剪 枝 的 决策 树 模型 ， 计 算 每 个 叶 节点 的 预测 值 〈 预 测 分 枝 ) 。 
(5) 找 出 袋 外 (OOB) 数据 作 测试 数据 ， 利 用 决策 树 模型 预测 。 

(6) ER (OD — (5) 步 重复 B 次 数 ， 例 如 B= 1000 次 。 

CD) 8 个 预测 值 取 其 投票 ) 多 数 的 分 类 值 ， 即 为 测试 及 最 终 预 测 分 类 结果 。 
(8) 进行 随机 森林 结果 的 评价 ， 并 且 检 查 特征 (对 因 变量 〉 的 重要 性 。 


12.4.8 RĀ 


在 R 语言 中 ，randomForest {randomForest} 包 和 ranger {ranger} 包 (和 森林 管理 员 ) ， 可 
以 建立 随机 森林 的 模型 。 


> m <- randomForest (formula, data) 或 m «- ranger(formula, data) 
例如 : m <- randomForest(Species ~ ., data = iris) 5 ranger(Species ~ ., 
data = iris) 
» m «- randomForest(x, y, xtest, ytest, ntree-500, mtry, 
importance-FALSE, localImp=FALSE, nPerm=1, 
proximity, oob.prox=proximity, 
keep.inbag=FALSE, ...) 
x = 训练 数据 数据 框 。 
y = 训练 数据 的 目标 变量 ( 分 类 因子 ) 若 没 有 y， 则 是 非 监督 式 学 习 。 
若 Y 是 分 类 因子 ， 则 是 决策 树 ， 若 Y 是 数值 ， 则 是 回归 树 。 
ntree =500 随机 森林 的 树木 个 数 。 
mtry = 随机 选择 的 特征 变量 数目 ， 若 自 变量 数目 = p， 决 策 树 的 默认 值 是 。 回 归 树 的 默认 值 是 p / 
30 
p <- predict (m, test, type="response" ) 
m = 训练 模型 。 
test = 测试 数据 数据 框 。 
type = "response" 预测 结果 ; "prob" 预测 结果 概率 ; "votes" 预测 结果 投票 矩阵 。 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) 


12.4.4 ”随机 森林 的 优点 和 缺点 


@ 随机 森林 的 优点 

(1) 可 以 适用 在 多 分 类 问题 。 

(2) 可 以 处 理 噪声 和 遗失 值 。 

(3) 处 理 分 类 和 连续 特征 变量 。 
(4) 可 找 出 多 数 重要 特征 变量 。 
(5) 适用 大 型 特征 变量 和 实例 数据 。 
C6) 可 用 在 非 监督 式 学 习 聚 类 分 析 。 
@ 随机 森林 的 缺点 

(1) 模型 不 容易 解释 。 

(2) 可 能 需要 调适 模型 。 


12.4.5 非 监督 式 学 习 - 营 尾 花 数 据 


随机 森林 的 非 监督 式 学 习 可 做 聚 类 分 析 ， 如 kmeans 和 hcluster。 随 机 森林 可 以 计算 聚 
类 的 相似 度 或 近似 度 


Biris knn, knn 


数据 框 格式 data.frame: 150 个 观察 值 ”5 个 变量 


+ 例 12.2 

# randomForest 非 监督 式 学 习 kmeans 

if(!requireNamespace( 'randomForest' , quietly = T)) {install.packages 
("randomForest") } 

if (!requireNamespace( 'metricsgraphics' )) {install.packages 
("metricsgraphics") } 

library(randomForest) ; library (metricsgraphics) 

set.seed(2019) ; iris.urf «- randomForest(iris[, -5]) 
MDSplot(iris.urf, iris$Species) ; MDSplot(iris.urf, iris$Species) 
rf.fit «- randomForest(x = iris[,1:4], y = NULL, ntree = 10000, 
proximity proximity = TRUE, oob.prox = TRUE) 

hclust.rf <- hclust(as.dist(l-rf.fit$proximity), method = "ward.D2") 
rf.cluster - cutree(hclust.rf, k-3) 

table(rf.cluster, iris$Species) 

iris.pc «- prcomp(iris[,1:4], center = FALSE, scale. = FALSE) $x 
iris.pc <- as.data.frame(iris.pc) 


km.cluster «- kmeans(iris[,1:4], centers = 3, iter.max = 20, nstart = 


V V V VV VV FEV VY VV +V FV YY 
N 


iris.pc$kmeans.cluster <- km.cluster$cluster 


table(iris$Species, km.cluster$cluster) 

mjs plot(iris.pc, x-PCl, y-PC2) 

rf.fit «- randomForest(x = iris[,1:4], y = NULL, ntree = 10000, 
proximity = TRUE, oob.prox = TRUE) 

hclust.rf <- hclust(as.dist(l-rf.fit$proximity), method = "ward.D2") 
rf.cluster - cutree(hclust.rf, k-3) 


iris.pc$rf.clusters «- rf.cluster 


V V V NV + YY Y 


table(rf.cluster, iris$Species) 


12.4.6 美国 大 学 数据 


数据 框 格式 data frame: 777 个 观察 值 18 个 变量 


> # R 例 12.3 

if(!require (randomForest)) (install.packages ("randomForest")] 
if (!require (ISLR) ) {install.packages ("ISLR") } 

library(ISLR) ; library(randomForest) ; library (ggplot2) 
data(College) ; head(College) ; str(College) ; df «- College 
ggplot (df, aes (Room.Board,Grad.Rate)) + geom point (aes (color-Private)) 
ggplot (df, aes (F.Undergrad) ) geom_histogram (aes (fill=Private) 
color= 'black' ,bins=50) 

ggplot (df, aes (Grad.Rate) ) geom_histogram (aes (fill=Private), 
color= 'black' ,bins=50) 

subset (df,Grad.Rate > 100) 

df[ 'Cazenovia College' , 'Grad.Rate' ] <- 100 
library(caTools) ; set.seed(101) 

sample = sample.split(df$Private, SplitRatio = -70) 


train = subset(df, sample == TRUE) 
test - subset(df, sample -- FALSE) 
library (rpart) 


tree «- rpart(Private -.,method- 'class' ,data - train) 

tree.preds «- predict (tree,test) 

tree.preds <- as.data.frame (tree.preds) 

joiner «- function(x) {if (x>=0.5){ return( 'Yes' )} else(return("No") } } 
tree.preds$Private <- sapply(tree.preds$Yes, joiner) 

head (tree.preds) 

table (tree.preds$Private, test$Private) 

library (rpart.plot) 

prp (tree) 
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rf.model <- randomForest (Private ~ . , data = train, importance = TRUE) 


/大 语 数 据 科学 
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> rf.model$confusion ; rf.model$importance 
» p «- predict (rf.model,test) 


» table(p,test$Private) ; importance (rf.model) 


e Boosting 学 习 


Boosting( 提 升 ) 是 序列 式 改进 模型 ， 迭 代 使 用 弱 学 习 分 类 器 ， 训 练 新 模型 时 将 前 模型 
错误 分 类 的 实例 增加 权重 。 最 后 将 各 模型 结果 做 线性 组 合集 成 强 学 习 器 。 

由 于 Boosting 将 注意 力 集中 在 分 类 错误 的 数据 上 ， 因 此 Boosting 对 训练 数据 的 噪声 非常 
敏感 ， 如 果 一 笔 训练 数据 噪声 数据 很 多 ， 那 后 面 分 类 器 都 会 集中 在 进行 噪声 数据 上 分 类 ， 
反而 会 影响 最 终 的 分 类 性 能 。 

对 于 Boosting 来 说 ， 有 两 个 关键 点 ， 一 是 如 何 改变 训练 数据 的 权重 ;二 是 如 何 将 多 个 弱 
分 类 器 组 合成 一 个 强 分 类 器 。Boosting 存 在 一 个 问题 : 要 求 预先 知道 弱 分 类 器 识别 准确 率 的 
下 限 。 

Boosting 的 算法 步骤 如 图 12-3 所 示 。 
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图 12-3 ”Boosting 的 算法 


由 于 Boosting 使 用 “ 弱 模 型 ”开始 ， 这 些 弱 模型 其 实 是 高 偏差 低 方差 ， 每 次 迭代 的 时 候 
(序列 处 理 ) ， 都 会 基于 先前 的 模型 进行 优化 〈 用 梯度 下 降 法 ， 决 定 这 次 模型 建 在 哪里 能 
使 损失 函数 下 降 最 多 ) 。 既 然 是 降低 损失 函数 ， 表 示 过 程 中 会 越 来 越 逼近 实际 值 ， 换 句 话 
说 ， 就 是 逐渐 降低 偏差 的 意思 。 

所 谓 的 GBM (Gradient Boosting Machine) 是 一 种 概念 ， 将 梯度 下 降 法 〈Gradient 
Descending) 跟 Boosting 套 件 结合 在 一 起 的 算法 ， 梯 度 下 降 法 找寻 方向 。 

在 及 语言 ， 使 用 xgboost 包 和 gbm 包 。 请 见 12.7.4 节 波士顿 数据 和 12.7.6 节 顾客 流失 数据 。 


Stacking 学 习 


如 果 说 集成 学 习 Censemble learning) 是 后 设 学 习 (meta learning) ， 那 么 Stacking 学 习 
(堆栈 或 层 积 ) 就 是 后 设 集成 (meta ensemble) 。 

Stacking (HERE) 学 习 已 经 训练 好 数 个 机 器 学 习 的 模型 ， 例 如 Logistic 线 性 回归 、 支 持 
向 量 机 和 决策 树 。 当 有 一 笔 新 数据 需要 预测 时 ， 会 各 自得 到 三 个 预测 值 (y1，y2，y3) ， 
然后 接 下 来 作为 最 终 模型 〈 又 称 后 设 模 型 meta-model, blender, meta learner) 的 输入 值 ， 
得 到 最 终 预 测 结果 。 

Stacking 的 算法 可 以 分 成 两 个 阶段 : 堆栈 Stacking: 先 训 练 多 个 初始 模型 ， 其 预测 结果 
叫 作 Meta-Data， 作 为 最 终 模型 的 输入 。 混 合 Blending: 最 终 模型 会 取得 Meta-Data, WAH 
最 后 结果 。 


12.6.4 皮 玛 数据 


这 里 用 到 三 个 模型 “rpart”“earth” 和 “knn” 的 集成 。rpart 是 决策 树 ，earth 是 多 元 目 
标 变 量 的 回归 ，knn 是 近邻 法 。Logistic 回 归 是 0-1 目 标 变 量 回归 ， 在 R 语 言 glm 函 数 包 。 虽 然 
pima 数 据 的 目标 函数 也 只 有 二 分 类 变量 ， 这 里 没有 用 到 Logistic 回 归 。 


【R 例 12.4 ] Stacking 据 Pima.csv， 


# R 例 12.4 

if(!require (caret)) (install.packages ("caret") } 

if (!require (caretEnsemble) ) {install.packages ("caretEnsemble") } 
library(MASS) ; library(caret) ; library(caretEnsemble) 
library(caTools) ; install.packages("doMC") ; library (doMC) 

pima «- rbind(Pima.tr, Pima.te) ; set.seed(502) 

split «- createDataPartition(y - pima$type, p - 0.75, list - F) 
train «- pima[split, ] ; test «- pima[-split, ] ; table(train$type) 


control «- trainControl(method = "cv", number = 5, savePredictions = 
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"final", classProbs = T, index=createResample(train$type, 5), 
sampling = "up", summaryFunction = twoClassSummary) 

set.seed (100) 

models «- caretList( type ~ ., data = train, trControl = control, 
metric = "ROC", methodList = c("rpart", "earth", "knn") ) 


models 


WW 


modelCor (resamples (models)) 


/大 语 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


model preds «- lapply(models, predict, newdata-test, type-"prob") 

model preds <- lapply (model preds, function(x) x[,"Yes"]) 

model preds «- data.frame (model preds) 

stack <- caretStack (models, method = "glm", metric = "ROC", 
trControl - trainControl( method - "boot", number - 5, 
savePredictions - "final", classProbs - TRUE, 


summaryFunction = twoClassSummary )) 


Vo + + VV ON OM 


summary (stack) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-2.0666 -0.6100 -0.3933 0.6071 2.3121 


Coefficients: 

Estimate Std. Error z value Pr(»|zl) 
(Intercept) 2.2236 0.2107 10.555 < 2e-16 *** 
rpart -1.5339 0.3495 -4.388 1.14e-05 *** 
earth -2.5772 0.3795 -6.792 1.11e-11 *** 
knn -1.0614 0.3629 -2.924 0.00345 ** 


Signif. codes: 0 '***' 0.001 '**' 0.01 ‘* 0.05 *.' 0.1 `” 1 


> prob <- l-predict (stack, newdata = test, type = "prob") 
> model_preds$ensemble <- prob 
> colAUC(model preds, test$type) 


rpart earth knn ensemble 
No vs. Yes 0.71 0.775 0.754 0.782 


12.6.0 员工 离职 数据 


数据 框 格式 data.frame: 1470 个 观察 值 ”14 个 变量 
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# nBl12.5 

data «- read.csv("C:/R/Attrition.csv") 
data$EmployeeNumber=data$Over18=data$EmployeeCount=data$StandardHours 
= NULL 

library (caret) 

library (caretEnsemble) 

control «- trainControl (method="repeatedcv", number-10, repeats=10, 
savePredictions=TRUE, classProbs=TRUE, 

index-createMultiFolds (data$Attrition, k-10, times=10) 
algorithmList «- c( 'C5.0' , 'nb' , 'gim' , 'knn' , 'svmRadial' ) 
set.seed(10000) 


models «- caretList(Attrition-., data-data, trControl-control, 


* methodList-algorithmList) 
» results «- resamples (models) 
» results 


summary (results) 


Accuracy 

Min. lst Qu. Median Mean 3rd Qu. Max. NA's 
C5.0 0.816 0.856 0.864 0.866 0.880 0.905 0 
nb 0.837 0.837 0.837 0.839 0.842 0.850 0 
gim 0.818 0.862 0.878 0.879 0.898 0.939 0 
knn 0.810 0.831 0.837 0.838 0.844 0.871 0 
svmRadial 0.830 0.869 0.878 0.880 0.891 0.939 0 
Kappa 

Min. lst Qu. Median Mean 3rd Qu. Max. NA's 

C5.0 0.1404 0.3088 0.3828 0.38362 0.480 0.6067 0 
nb 0.0000 0.0000 0.0000 0.00349 0.000 0.0712 0 
gim 0.2391 0.4031 0.4615 0.47221 0.544 0.7513 0 
knn -0.0592 0.0392 0.0678 0.08112 0.120 0.3057 0 
svmRadial 0.1684 0.3762 0.4446 0.44984 0.521 0.7427 0 


> modelCor (results) 

» stackControl «- trainControl (method-"repeatedcv", number-10, repeats-10 
+ savePredictions=TRUE, classProbs=TRUE) 

stack.glm <- caretStack(models, method="glm", trControl=stackControl 
print (stack.glm) 


stack.rf <- caretStack(models, method="rf", trControl=stackControl) 


Se ON op 


print (stack.rf) 


mtry Accuracy Kappa 


2 0.912 0.628 
3 0.913 0.635 
5 0.912 0.634 


R 语 言 实战 


12.7.1 红酒 数据 


[R ] 数据 wine.csv， no 
数据 框 格式 data frame: 178 个 观察 值 ”14 个 变量 
> 4 R 例 12.6 


> ¢ 本 例 是 各 种 聚 类 分 析 nclust, kmeans, NbClust, X randomForest 分 析 结 果 ， 
> + 和 实际 目标 值 class 的 比较 


> if(!require (caret) ) {install.packages ("caret")} ; library (caret) 


/大 语 数据 科学 
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也 大 数据 与 机 器 学 习 实战 ( 基于 R 语 言 ) 


if(!require(cluster))[install.packages ("cluster")} ; library (cluster) 
if(!require (compareGroups) ) {install.packages ("compareGroups") } 
if (!require (HDclassif) ) {install.packages ("HDclassif") } 
library(compareGroups) ; library (HDclassif) 
if (!require (NbClust) ) {install.packages ("NbClust")} ; library (NbClust) 
if (!require (sparcl)) {install.packages("sparcl")} ; library(sparcl) 
data(wine) ; str(wine) 
names (wine) <- c("Class", "Alcohol", "MalicAcid", "Ash", "Alk_ash", 
"magnesium", "T phenols", "Flavanoids", "Non flav", 
"Proantho", "C Intensity", "Hue", "OD280 315", "Proline") 
names (wine) ; df <- as.data.frame(scale(wine[, -1])) ; str(df) 
table (wine$Class) 
numComplete «- NbClust(df, distance = "euclidean", min.nc = 2, 
max.nc = 6, method = "complete", index = "all" 
numComplete$Best.nc 
dis «- dist(df, method - "euclidean") 
hc <- hclust(dis, method = "complete") 
plot(hc, hang = -1,labels = FALSE, main = "Complete-Linkage") 
comp3 «- cutree(hc, 3) 
ColorDendrogram(hc, y = comp3, main = "Complete", branchlength = 50) 
112-4 


图 12-4” 树 形 图 


table(comp3) ; table(comp3, wine$Class) 

numWard «- NbClust(df, diss = NULL, distance = "euclidean", 
min.nc = 2, max.nc = 6, method- "ward.D2", index = "all") 
hcWard «- hclust(dis, method = "ward.D2") 

plot(hcWard, hang = -1, labels = FALSE, main = "Ward! s-Linkage") 


ward3 «- cutree(hcWard, 3) ; table(ward3, wine$Class) 
table(comp3, ward3) ; aggregate(wine[, -1], list(comp3), mean) 


aggregate(wine[, -1], list(ward3), mean) ; par(mfrow = c(l, 2)) 


boxplot (wine$Proline ~ comp3, main = "Proline by Complete Linkage") 
boxplot(wine$Proline - ward3, main - "Proline by Ward' s Linkage") 
numKMeans «- NbClust(df, min.nc = 2, max.nc = 15, method = "kmeans") 


set.seed(1234) ; km <- kmeans(df, 3, nstart = 25) 
table(km$cluster) ;  km$centers 

boxplot(wine$Alcohol ~ km$cluster, main = "Alcohol Content, K-Means") 
boxplot(wine$Alcohol - ward3, main - "Alcohol Content, Ward’ s") 
table(km$cluster, wine$Class) 

wine$Alcohol <- as.factor(ifelse(df$Alcohol > 0, "High", "Low")) 
disMatrix <- daisy(wine[, -1], metric = "gower") ; set.seed(123) 
pamFit <- pam(disMatrix, k = 3) ; table(pamFit$clustering) 
table(pamFit$clustering, wine$Class) 

wine$cluster «- pamFit$clustering 

group <- compareGroups (cluster ~ ., data = wine) 

clustab «- createTable(group) ; clustab 

export2csv(clustab, file = "wine clusters.csv") 


library(randomForest) ; set.seed(1) 


机 


rf «- randomForest(x = wine[, -1], ntree = 2000, proximity = T) 
rf — 4 随机 森林 聚 类 分 析 

dim(rf$proximity) ; rf$proximity[1:5, 1:5] ; importance (rf) 
dissMat <- sqrt(1 - rf$proximity) ; dissMat[1:2, 1:2] 
set.seed(123) ; pamRF «- pam(dissMat, k = 3) 


VOMOM MOM 


table(pamRF$clustering) ; table(pamRF$clustering, wine$Class) 


12.7.2 信用 数据 


boosting {adabag} 
数据 框 格式 data.frame: 1000 个 观察 值 17 个 变量 


# R 例 12.7 

if (!require (ipred) ) {install.packages ("ipred")) ; library (ipred) 
if(!require(kernlab))[install.packages ("kernlab")} ; library (kernlab) 
if (!require (C50) ) finstall.packages ("C50")) ; library (C50) 

if (!require (adabag) ) {install.packages("adabag")} ; library (adabag) 
library(randomForest) ; library(caret) ; library(C50) 

library (adabag) ; library (vcd) 


A wA we CC AS UP 


credit «- read.csv("C:/R/credit.csv",header = TRUE) ; str(credit) 


/大 话 数据 科学 


了 大 数据 与 机 器 学 习 实 战 ( 基于 R 语 言 ) 


set.seed(300) ; bag «- bagging(default ~ ., data = credit, nbagg = 25) 
credit pred «- predict(bag, credit) ; str(credit pred) 
table(credit pred$class, credit$default) ; credit pred$confusion 


set.seed(300) ; ctrl «- trainControl (method "cv", number = 10) 


train(default ~ ., data = credit, method = "treebag", trControl = ctrl) 
m c50 bst «- C5.0(default ~ ., data = credit, trials = 100) 
set.seed(300) ; m adaboost «- boosting(default ~ ., data = credit) 

p adaboost <- predict(m adaboost, credit) ; head(p adaboost$class) 

p adaboost$confusion ; set.seed(300) 

adaboost cv «- boosting.cv(default ~ ., data = credit) 

adaboost cv$confusion ; Kappa(adaboost cv$confusion) ; set.seed(300 

rf «- randomForest(default - ., data - credit) ; rf 

ctrl <- trainControl (method = "repeatedcv", number = 10, repeats = 10 


grid rf «- expand.grid(.mtry - c(2, 4, 8, 16)) ; set.seed(300) 


m rf <- train(default ~ ., data = credit, method = "rf", 
metric = "Kappa", trControl = ctrl, tuneGrid = grid rf) 
m rf 

grid c50 «- expand.grid(.model - "tree", .trials - 

c(10, 20, 30, 40), .winnow = "FALSE") 


set.seed(300) 
m c50 «- train(default - ., data - credit, method - "C5.0", 
metric - "Kappa", trControl - ctrl, tuneGrid - grid c50) 


m c50 


12.7.3 RBG 
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# R 例 12.8 
library (tidyverse) ; library(caret) ; library (randomForest) 


library(xgboost) ; data("PimaIndiansDiabetes2", package = "mlbench") 
Pima2 «- na.omit(PimaIndiansDiabetes2) ; set.seed(123) 

tr «- Pima2$diabetes %>% createDataPartition(p = 0.8, list = FALSE) 
train «- Pima2[tr, ] ; test «- Pima2[-tr, ] ; set.seed(123) 

model «- train(diabetes ~., data = train, method = "rf", 

trControl - trainControl("cv", number - 10), importance - TRUE ) 

+ 随机 森林 rf We 

model$bestTune ; model$finalModel 

pred <- model %>% predict (test) + 测试 集 预测 

mean (pred == test$diabetes) # 预测 结果 正确 性 

importance (model$finalModel) # 变量 重要 性 

varlImpPlot (model$finalModel, type = 1) 
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12.7.4 波士顿 房价 数据 
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varImpPlot (model$finalModel, type = 2) 
varImp (model) 
models «- list() 
for (nodesize in c(l, 2, 4, 8)) (set.seed (123) 
model «- train(diabetes-., data - Pima2, method-"rf", 
trControl = trainControl (method-"cv", number-10), 
metric = "Accuracy", nodesize = nodesize ) 
model.name <- toString (nodesize) 
models[[model.name]] <- model } 
resamples (models) %>% summary (metric = "Accuracy") ; set.seed(123) 
model <- train (diabetes ~., data = train, method = "xgbTree", 
trControl = trainControl("cv", number = 10) ) 
model$bestTune # xgboost 模型 
predict <- model %>% predict (test) 
mean (predict == test$diabetes) 


varImp (model) 


omF¢ 
14 个 变量 


* R 例 12.9 

if(!require (caret) ) (install.packages ("caret") } 

library(caret) ; library(MASS) ; library(gbm) ; data(Boston) 
boston«-Boston ; str(boston) ; dim(boston) ; names (boston) 
require(randomForest) ; set.seed(101) 

train = sample(1:nrow(boston), 300) 

calc acc = function(actual, predicted) {mean(actual == predicted) } 
calc rmse-function (actual, predicted) {sqrt (mean ( (actual-predicted)^2))) 
# randomForest 

rf.boston = randomForest (medv-., data = boston, subset = train) 
rf.boston 

oob.err - double(13) ; test.err - double(13) 

trn = boston[train,] ; tst = boston[-train,] 

yh.rf <- predict (rf.boston, newdata-tst) 

(mean((yh.rf — tst$medv)^2)) 

importance(rf.boston) # 自 变量 的 相对 重要 性 

varImpPlot (rf.boston) 

for(mtry in 1:13){ fit = randomForest (medv-., data = boston, 


subset-train, mtry-mtry, ntree = 350) 


/大 语 数据 科学 
二 大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) | 


oob .err [mtry] = fit$mse[350] 

pred = predict (fit, boston[-train,]) 

test.err[mtry] = with(boston[-train,], mean( (medv-pred)^2 )) } 
matplot(1:mtry, cbind(test.err, oob.err), pch = 23, col = c("red", 
"plue"), type - "b", ylab-"Mean Squared Error") 
legend("topright", legend - c("OOB", "Test"), pch - 23, 

col = c("red", "blue")) 
bag = randomForest (medv ~ ., data = trn, mtry = 13, 

importance = TRUE, ntrees = 500) 

bag ; bag tst pred = predict (bag, newdata = tst) 
plot(bag tst pred, tst$medv, xlab - "Predicted", 

ylab = "Actual", main = "Predicted vs Actual: Bagged Model, Test Data", 
col - "dodgerblue", pch - 20) 

abline(0, 1, col = "darkorange", lwd = 2) 

(bag tst rmse - calc rmse(bag tst pred, tst$medv)) 

plot(bag, col = "dodgerblue", lwd = 2, main = "Bagged Trees: 
Error vs Number of Trees") 

#### randomForest 


rf = randomForest (medv ~ ., data trn, mtry = 4, 


500) 


importance = TRUE, ntrees 


rf ; importance(rf, type = 1) ; varImpPlot(rf, type = 1) 
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> rf tst pred = predict(rf, newdata - tst) 

» plot(rf tst pred, tst$medv, xlab - "Predicted", 
+ ylab = "Actual", main = "Predicted vs Actual: Random Forest, 
+ Test Data", col = "dodgerblue", pch = 20) 
> abline(0, 1, col = "darkorange", lwd = 2) 
> (forest_tst_rmse = calc rmse(rf tst pred, tst$medv) ) 
> rf trn pred = predict(rf, newdata = trn) 
> forest trn rmse = calc rmse(rf trn pred, trn$medv) 
» forest oob rmse - calc rmse(rf$predicted, trn$medv) 
> #### gbm 

> booston_boost = gbm(medv ~ ., data = trn, distribution = 
+ "gaussian", n.trees = 5000, interaction.depth = 4, shrinkage = 0.01) 
> booston_boost 

> tibble::as tibble (summary (booston boost)) 
> par(mfrow = c(1, 1)) 

> plot(booston boost, i = "rm", col = "dodgerblue", lwd = 2) 
» plot(booston boost, i = "lstat", col = "dodgerblue", lwd = 2) 
> plot(booston boost, i = "dis", col = "dodgerblue", lwd = 2) 
> boost tst pred = predict (booston_boost, newdata = tst, 
+ n.trees = 5000) 

> 


(boost tst rmse = calc rmse(boost tst pred, tst$medv)) 


» plot(boost tst pred, tst$medv, 
+ xlab = "Predicted", ylab = "Actual", 
+ main = "Predicted vs Actual: Boosted Model, Test Data", 
+ col = "dodgerblue", pch = 20) 
> abline(0, 1, col = "darkorange", lwd = 2) 
> rmse = data.frame (Model = c("Bagging","Random Forest", "Boosting") 
> TestError = c(bag_tst_rmse, forest_tst_rmse, boost_tst_rmse)) 
> rmse 
Model TestError 

1 Bagging 3.89 

2 Random Forest 3.92 

3 Boosting 3.25 
> ### Boosting gbm 
> require (gbm) 
> boost.boston = gbm(medv-., data = boston[train,], distribution = 
+ "gaussian", n.trees = 10000, shrinkage = 0.01, interaction.depth = 4) 
> summary (boost.boston) 
> plot(boost.boston,i-"lstat") 
> plot (boost.boston, i="rm") 
> n.trees = seq(from = 100, to = 10000, by = 100) 
> predmat = predict (boost.boston, newdata = boston[-train,], 
+ n.trees = n.trees) 
> dim(predmat) 
> boost.err = with(boston[-train,], apply( (predmat - medv)^2, 2, mean)) 
> plot(n.trees, boost.err, pch = 23, ylab = "Mean Squared Error", 
+ xlab = "# Trees", main = "Boosting Test Error") 
> abline(h = min(test.err), col = "red") 


数据 框 格式 data frame: 506 个 观察 值 “14 个 变量 


# R 例 12.10 

library(tidyverse) ; library(caret) ; library (randomForest) 
data("Boston", package - "MASS") ; set.seed(123) 

tr «- Boston$medv %>% createDataPartition(p = 0.8, list = FALSE) 
train «- Boston[tr, ] ; test «- Boston[-tr, ] ; set.seed(123) 
model «- train(medv -., data - train, method - "rf", 


trControl = trainControl("cv", number = 10)) 
model$bestTune # 调 参 mtry 

pred «- model %>% predict(test) ; head (pred) 
RMSE (pred, test$medv) # 预测 误差 RMSE 
library(xgboost) ; set.seed(123) 
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model «- train(medv -., data = train, method = "xgbTree", 


/ 估 话 数据 科学 
了 大 数据 与 机 器 学 习 实战 ( 基 于 R 语 言 ) 


trControl = trainControl("cv", number = 10)) 
model$bestTune # WH 

pred «- model %>% predict(test) ; head(pred) 
RMSE (pred, test$medv) # 预测 误差 RMSE 


Vv V + 


12.7.5 汽车 座 椅 数 据 


数据 框 格式 data.frame: 400 个 观察 值 11 个 变量 
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# RBIi2.11 

# train gbm 

if (!require (caret) ) {install.packages ("caret") } 

if (! require (ISLR) ) {install.packages ("ISLR") } 

if (! require (rpart) ) {install.packages ("rpart") } 

if (! require (gbm) ) (install.packages ("gbm") } 

if (! require (rpart.plot) ) {install.packages ("rpart.plot") } 

library (caret) ; library(ISLR) ; library(gbm) ; library (rpart) 
library(rpart.plot) ; library(MASS) ; library (randomForest) 
data(Carseats) ; str(Carseats) 

Carseats$Sales = as.factor(ifelse(Carseats$Sales«-8, "Low", "High") ) 
calc acc = function (actual, predicted) {mean (actual==predicted) } 
set.seed(2) ; seat_idx = sample(1:nrow(Carseats), 200) 

seat_trn = Carseats[seat idx,] ; seat tst = Carseats[-seat idx, 
seat tree = rpart(Sales ~ ., data = seat trn) 
rpart.plot(seat tree) 

seat tree tst pred = predict(seat tree, seat tst, type = "class") 
table(predicted - seat tree tst pred, actual - seat tst$Sales) 
(tree tst acc - calc acc(predicted - seat tree tst pred, actual - 
seat tst$Sales) 

# tune boosting 

cv 5 = trainControl (method = "cv", number = 5) 

gbm grid = expand.grid(interaction.depth = 1:5, n.trees = (1:6) * 500, 
shrinkage = c(0.001, 0.01, 0.1), n.minobsinnode = 10) 
seat gbm tune = train(Sales - ., data - seat trn, method - "gbm", 
trControl = cv 5, verbose = FALSE, tuneGrid = gbm grid) 

plot (seat gbm tune) 

calc acc (predict (seat gbm tune, seat tst), seat tst$Sales) 


seat gbm tune$bestTune 


12.7.6 ”顾客 流失 数据 


ha hr 


数据 框 格式 data frame: 7043 个 观察 值 ”21 个 变量 


> 4 R 例 12.12 
install.packages ("CHAID", repos-"http://R-Forge.R-project.org") 
install.packages ("partykit") ; install.packages ("ranger") 
install.packages("xgboost") ; install.packages ("RANN") 
library(partykit) ; library(CHAID) ; library(ranger) ; library (RANN) 
library(dplyr) ; library(tidyr) ; library(ggplot2) ; require(purrr) 
require(caret) ; require(xgboost) ; require (kableExtra) 
theme set(theme bw()) ; set.seed(2000) 
# churn <- read.csv ("https://community.watsonanalytics.com/wp- 
# content/uploads/2015/03/WA Fn-UseC -Telco-Customer-Churn.csv") 
churn <- read.csv("C:/R/churn.csv") ; str(churn) 
churn$SeniorCitizen «- recode factor( churn$SeniorCitizen, 
^0" = "No", ^l' = "Yes", .default = "Should not happen" ) 
summary (churn$SeniorCitizen) 
churn $»$ select if(is.numeric) %>% gather (metric, value) %>% 
ggplot(aes(value, fill = metric)) + geom density(show.legend = FALSE) 
facet wrap( ~ metric, scales = "free") 
churn %>% select if (anyNA) %>% summary 
xxx <- churn %>% (filter all(any vars(is.na(.))) $>% select (customerID) 
XXX <- as.vector (xxx$customerID) 
churn %>% filter(customerID $in$ xxx) 
churn %>% filter(customerID $in$ xxx) %>% 
summarise (median (MonthlyCharges) ) 
median (churn$MonthlyCharges, na.rm = TRUE) 
churn %>% filter(customerID $in% xxx) %>% summarise (median (tenure) 
median(churn$tenure, na.rm = TRUE) 
pp knn «- preProcess(churn, method = c("knnImpute", "YeoJohnson", 
"nzy")) 
pp knn ; pp knn$method 
pp median «- preProcess(churn, method = c("medianImpute", 
"YeoJohnson", "nzv")) 
pp median ; pp median$method 
nchurnl <- predict(pp knn,churn) ; nchurn2 <- predict (pp median, churn) 
nchurn2 %>% filter(customerID %in% xxx) %>% 
summarise (median (TotalCharges) ) 


median (nchurn2$TotalCharges, na.rm = TRUE) 
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nchurnl %>% filter(customerID $in% xxx) %>% 


/ 估 话 数据 科学 
大 数据 与 机 器 学 习 实 战 (基于 R 语 言 ) | 


summarise (median (TotalCharges) ) 
median (nchurnl$TotalCharges, na.rm = TRUE) 
nchurnl %>% select if(is.numeric) %>% 
gather(metric, value) %>% ggplot(aes(value, fill — metric)) 
geom density (show.legend = FALSE) 
facet wrap( ~ metric, scales - "free") 
nchurn2 %>% select if(is.numeric) %>% 


gather(metric, value) %>% ggplot(aes(value, fill = metric)) 


geom density (show.legend = FALSE) 

facet wrap( ~ metric, scales - "free") 
churn «- predict(pp knn,churn) ; churn$customerID «- NULL 
churn <- churn %>% mutate if (is.numeric, 

funs (factor = cut number(., n-5, labels = c("Lowest", 
"Below Middle", "Middle", "Above Middle", "Highest") ))) 
summary (churn) 

intrain <- createDataPartition(churn$Churn, p=0.7, list=FALSE) 
training <- churn[intrain,] ;testing <- churn[-intrain,] 
training <- training %>% select_if(is.factor) 
testing <- testing %>% select_if(is.factor) 


features <- setdiff(names(training), "Churn") 
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> x <- training[, features] ; y «- training$Churn 

> train control <- trainControl (method = "cv",number = 5, 
* savePredictions = "final") 

> search grid «- expand.grid( alpha2 = c(.05, .01, .001), 
+ alpha4 = c(.05, .01, .001), alpha3 = -1) 

> chaid.model <- train( x = x, y = y, method = "chaid", 
+ trControl = train control, tuneGrid = search grid ) 
> chaid.model ; confusionMatrix(chaid.model) 

> plot (chaid.model) ; varImp(chaid.model) 

> chaid.model$times ; chaid.model$finalModel 

> plot (chaid.model$finalModel) 

> confusionMatrix (predict (chaid.model, newdata = testing), testing$Churn) 
> training <- churn[intrain,] ; testing <- churn[-intrain, 
> training <- training %>% select (-ends_with(" factor") ) 
> features <- setdiff(names(training), "Churn") 

> x <- training[, features] ; y <- training$Churn 
> rf grid «- expand.grid(mtry = c(2:4), 

+ splitrule = c("gini"), min.node.size = c(3, 5, 7)) 
> rf_grid 

> ranger.tr <- train(x = x, y = y, method = "ranger", 

+ trControl = train control, tuneGrid = rf grid, 

2 


importance - "impurity") 


ranger.tr 

confusionMatrix(ranger.tr) ; plot(ranger.tr) 

varImp (ranger.tr) 

confusionMatrix(predict(ranger.tr, newdata = testing), testing$Churn) 

xgb grid <- expand.grid(nrounds = c(100, 150, 200), max depth = 1, 
min child weight = 1, subsample = 1, gamma = 0, 

0.8, eta = c(.2, .3, .4)) 


LU 


colsample bytree 
xgb grid 
xgboost.model «- train(Churn ~ ., training , method = "xgbTree", 
tuneGrid - xgb grid, trControl - train control) 
xgboost.model 
confusionMatrix(xgboost.model) ; plot(xgboost.model) 
varImp (xgboost .model) 
confusionMatrix (predict (xgboost.model, newdata = testing), 
testing$Churn) 
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本 章 思维 导 图 


后 设 学 习 
集成 学 习 介绍 | 集成 树 : 投票 
集成 回归 : 平均 


各 分 类 方法 评价 甲状 腺 功能 Hypothroid 数据 : R 例 12.1 


并 行进 行 ， 减 少 方差 


Bassins SER Cs mm, BORDER 


算法 步骤 

随机 抽样 特征 变量 
优点 和 缺点 

非 监督 式 学 习 : BALE iris 数据 : R 例 12.2 


美国 大 学 College 数据 : R 例 12.3 
序列 式 改进 模型 


Boosting 提升 
降低 偏差 
后 设 集成 


Stacking 堆栈 


皮 玛 Pima 数据 : R 例 12.4 
员工 离职 Attrition 数据 : R 例 12.5 


adabag::bagging, boosting 


randomForest::randomForest 


xgboost::xgboost 


e1701::ranger 


Tanger: ‘ranger 


caret::train(method="rf"", "xgbTree") 


红酒 wine 数据 : R 例 12.6 


信用 credit 数据 : R 例 12.7 S 


皮 玛 pima2 数据 : R 例 12.8 
波士顿 房价 Boston 数据 : R 例 12.9, 12.10 
汽车 座 椅 Carseats 数据 : R 例 12.11 


Oe, 
Bie chum 数据 : R 例 12.12 图 图 A 
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推荐 系统 概述 


推荐 系统 (Recommendation system) 是 将 产品 或 服务 ， 推 荐 给 某 位 顾客 。 推 荐 系统 
用 于 预测 用 户 对 物品 或 服务 的 “评分 ”或 “偏好 ”，“ 猜 你 喜欢 ”。 推 荐 的 对 象 包 括 : 
电影 、 音 乐 、 新 闻 、 书 籍 、 笑 话 、 学 术 论 文 、 搜 索 查询 、 分 众 分 类 以 及 其 他 产品 。 还 有 
服务 业 推 荐 系统 ， 寻 找 专家 或 合作 者 、 餐 厅 美 食 、 金 融 服 务 、 生 命 保险 、 网 络 交 友 ， 以 及 
Twitter 页 面 设计 。 

如 果 是 大 数据 婚姻 配对 ， 是 否 可 以 用 推荐 系统 ? 如 何 用 推荐 系统 ? 

根据 分 类 与 因果 ， 先 将 产品 或 服务 根据 属性 和 需求 分 类 ， 再 说 明 应 该 用 什么 推荐 
系统 。 

产品 的 属性 分 为 定量 和 定性 : 定量 是 可 以 数量 化 的 ， 例 如 笔记 本 计算 机 的 规格 。 定 性 
的 属性 是 不 同 的 人 有 不 同 的 价值 偏好 和 评价 ， 例 如 电影 、 音 乐 、 书 籍 、 旅 游 等 。 

产品 的 需求 分 为 一 致 和 差异 : 一 致 的 需求 是 没有 多 少 选择 ， 例 如 加 油 站 的 汽油 、 快 餐 
店 的 商品 。 差 异 的 需求 是 有 很 多 选择 ， 例 如 书籍 、 旅 游 、 汽 车 、 化 妆 品 、 投 资产 品 、 保 健 
商品 、 顾 问 服务 、 计 算 机 系统 等 。 

基于 产品 的 属性 和 需求 ， 推 荐 系统 的 问题 ， 可 以 分 成 以 下 四 种 方法 ， 如 图 13-1 所 示 。 
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图 13-1 推荐 系统 


(1) 基于 规则 : 适用 于 定量 属性 一 致 需 求 的 产品 ， 用 一 些 规则 如 决策 树 ， 来 判定 消费 
者 会 属于 哪 种 产品 。 

(2) 计算 机 辅助 说 明 : 适用 于 定量 属性 差异 需求 的 产品 ， 用 一 个 在 线 系统 ， 询 问 受 
访 者 有 关 偏 好 的 结构 性 的 问题 〈 例 如 你 喜欢 休闲 的 生活 或 挑战 的 工作 ) ， 然 后 利用 这 些 信 
息 ， 产 生产 品 或 服务 的 评价 和 推荐 给 消费 者 或 生产 商 。 

(3) 背书 保证 : 适用 于 定性 属性 一 致 需求 的 产品 ， 用 简化 定性 的 选择 ， 配 合 大 量 的 数 
据 库 ， 找 到 合适 的 产品 ， 可 以 用 关联 规则 分 析 等 模型 。 

(4) 协同 过 滤 : 适用 于 定性 属性 差异 需求 的 产品 ， 本 章 主 要 介绍 协同 过 滤 。 


协同 过 滤 (collaborative filtering). 的 算法 ， 即 利用 其 他 顾客 对 产品 的 喜好 评价 ， 找 出 和 
目标 客户 对 产品 有 相同 评价 喜好 的 用 户 ， 然 后 推荐 给 目标 客户 。 

过 滤 推 荐 系统 分 为 基于 内 容 过 滤 (CBCE) 、 协 同 过 滤 (CF) 和 混合 过 滤 (CBCF+CF) ， 
如 图 13-2 所 示 。 


图 13-2 ”过 滤 过 滤 推荐 系统 


基于 内 容 的 过 滤 (content based filtering) 是 比较 产品 的 属性 和 用 户 的 轮廓 描述 ， 产 品 
属性 是 用 标签 或 字 词 描述 ， 有 产品 叙述 文件 ， 用 户 描述 也 有 相同 的 字 词 ， 分 析 顾客 对 产品 
内 容 看 过 或 评价 。 基 于 内 容 的 过 滤 会 用 文本 分 析 或 模糊 集合 理论 的 方法 ， 给 出 推荐 系统 的 
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建议 。 

混合 过 滤 是 将 几 个 过 滤 方 法 集成 起 来 。 

本 章 主要 介绍 协同 过 滤 推 荐 ， 大 数据 婚姻 配对 ， 是 否 可 以 用 协同 过 滤 推荐 系统 ? 

协同 过 滤 推 荐 的 数据 是 一 个 评分 矩阵 ， 行 是 用 户 ， 列 是 项 目 或 商品 。 托 阵 的 评分 有 两 
种 : 一 是 实数 评分 ， 通 常 是 1 一 5 的 整数 ， 二 是 二 项 评分 ， 通 常 是 0，1 的 整数 。 婚 姻 配 对 的 
对 象 如 果 评 分 很 高 ， 而 且 对 象 也 满意 ， 就 不 可 能 再 推荐 给 下 一 个 用 户 ， 所 以 婚姻 配对 系统 
应 该 不 适合 协同 过 滤 推 荐 。 


13.2.1 相似 度 


协同 过 滤 首 先 要 定义 用 户 之 间 的 相似 度 ， 用 Jaccard 公 式 或 者 余弦 相似 度 计 算 两 个 用 户 
之 间 的 相似 度 。 设 x，y 为 两 用 户 对 所 有 物品 的 评分 ， 或 两 物品 在 所 有 用 户 的 评分 ，x 和 y 的 
相似 度 余弦 Cosine: 

d= xy _ Y (xx) 
Ill» EEA 
夹 角 余弦 是 相似 度 测度 ， 夹 角 余弦 越 大 ， 相 似 度 越 高 。 
设 N(w) 为 用 户 u 喜 欢 的 物品 集合 ，N(v) 为 用 户 v 喜 欢 的 物品 集合 ，u 和 v 的 相似 度 是 Jaccard 


BK: 


IN(u)NN(v)| 
alue ING)UNGY) 


13.2.2 ”基于 用 户 的 协同 过 滤 


和 用 户 有 相同 偏好 的 人 喜欢 这 个 产品 ， 猜 目标 客户 也 会 喜欢 这 个 产品 。 这 是 基于 用 户 
协同 过 滤 (User Based Collaborative Filtering, UBCF) 。 

基于 用 户 对 物品 的 偏好 ， 找 到 相同 的 用 户 〈 相 似 的 邻居 ) 。 适 用 于 物品 项 目 比 用 户 
多 ， 个 人 主观 性 较 强 的 情况 ， 例 如 文章 、 音 乐 的 推荐 如 图 13-3 所 示 。 

基于 用 户 协同 过 滤 的 步骤 。 

(1) 计算 目标 用 户 和 其 他 用 户 的 相似 度 r o 

(2) 设 定 近邻 的 数目 k= 3。 

G) 找到 目标 用 户 的 k 个 近邻 。 

(4) 找 出 目标 客户 没有 购买 物品 在 近邻 中 的 评分 。 

(5) 计算 这 些 评分 的 平均 值 〈 表 13-1 倒 数 第 1 行 ) 。 


(6) 排序 目标 客户 没有 购买 物品 的 评分 均值 。 
#131 基于 用 户 协同 过 滤 的 评分 矩阵 


图 13-3 ”基于 用 户 协 同 过 滤 


13.2.3 ”基于 项 目的 协同 过 滤 


购买 商品 A 的 还 买 了 商品 B; 看 过 商品 C 的 还 看 了 商品 D; 这 就 是 基于 项 目 〈 商 品 ) 协 
同 过 滤 (Item Based Collaborative Filtering，IBCF)〉， 适 用 于 用 户 多 物品 项 目 少 的 情况 ， 否 
则 计算 慢 。 数 据 稀疏 时 ， 推 荐 效果 不 佳 。 

如 果 说 基于 项 目 协同 过 滤 是 将 相关 的 项 目 物品 聚合 在 一 起 ， 再 推荐 给 没有 买 的 人 ， 那 
这 种 算法 和 模型 ， 和 关联 分 析 或 聚 类 分 析 有 何不 同 ? “协同 ”在 哪里 ? 

基于 项 目 协同 过 滤 的 步骤 。 

CD 计算 商品 项 目 之 间 的 相似 度 S， 。 

(2) 目标 用 户 购买 商品 j 的 评分 。 
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G) 目标 客户 没有 购买 物品 i HP 7, o 


f. 


Ds ila 


NW zs ei 
基于 项 目 协同 过 滤 及 基于 项 目 协同 过 二 滤 的 项 目 相似 度 矩阵 如 图 13.4、 表 13.2 所 示 。 


相似 度 
S 


图 13-4 ”基于 项 目 协同 过 滤 


表 13-2 ”基于 项 目 协同 过 滤 的 项 目 相似 度 和 矩阵 


f, =(2x0+4x0.4+5x0.5)/(0+0.4+0.5)=4.6 


13.2.4 协同 过 滤 的 评价 


协同 过 滤 推 荐 系统 也 可 以 做 采样 训练 数据 、 验 证 数据 和 测试 数据 ， 返 回 式 自助 采样 ， 
以 及 及 折 交叉 验证 。 
实数 评分 矩阵 的 评价 : 


AF: KÆRA G, D 有 预测 分 数 ; 是 用 户 ; j 是 物品 。 
二 项 评分 矩阵 的 评价 ， 请 用 混淆 矩阵 。 


13.2.5 协同 过 滤 的 优点 和 缺点 


O 协同 过 滤 的 优点 

以 用 户 的 角度 来 推荐 的 协同 过 滤 系 统 有 下 列 优点 : 

(1) 能 够 分 析 定性 的 信息 ， 如 艺术 品 、 音 乐 的 偏好 等 。 

(2) 共享 其 他 人 的 经 验 ， 避 免 了 内 容 分 析 的 不 完全 或 不 精确 ， 并 且 能 够 基于 一 些 复杂 
的 ， 难 以 表述 的 概念 〈 如 信息 质量 、 个 人 品味 ) 进行 过 滤 。 

(3) 有 推荐 新 信息 的 能 力 。 可 以 发 现 内 容 上 完全 不 相似 的 信息 ， 用 户 对 推荐 信息 的 内 
容 事先 是 预料 不 到 的 。 可 以 发 现 使 用 者 潜在 的 但 自己 尚未 发 现 的 兴趣 偏好 。 

(4) 推荐 个 性 化 、 自 动 化 程度 高 。 能 够 有 效 地 利用 其 他 相似 用 户 的 回馈 信息 。 加 快 个 
性 化 学 习 的 速度 。 

C5) 不 依赖 物品 本 身 的 数据 ， 所 以 这 个 方法 在 不 同 物品 的 领域 都 可 以 使 用 ， 它 是 领域 
独立 的 (domain-independent) 。 

(6) 不 需要 对 物品 或 者 用 户 进行 严格 的 建 模 ， 而 且 不 要 求 物 品 的 描述 是 机 器 可 理解 
的 ， 所 以 协同 过 滤 也 是 领域 无 关 的 。 

(7) 协同 过 滤 计 算出 来 的 推荐 是 开放 的 ， 可 以 共享 他 人 的 经 验 ， 很 好 地 支持 用 户 发 现 
潜在 的 兴趣 偏好 。 

(8) 协同 过 滤 有 现成 的 用 户 评分 数据 。 可 以 预先 计算 距离 ， 在 线 用 户 推荐 可 以 快速 给 
出 推荐 列表 热门 或 物品 会 有 偏 态 或 稀疏 的 结果 。 

@ 协同 过 滤 的 缺点 

虽然 协同 过 滤 作 为 一 推荐 机 制 有 其 相当 的 应 用 ， 但 协同 过 滤 仍 有 许多 的 问题 需要 解 
决 。 最 典型 的 问题 有 : 

COD 新 使 用 者 问题 : 对 新 用 户 来 讲 没 有 “ 冷 启动 ”的 问题 。 因 为 需要 基于 用 户 以 往 的 
喜好 历史 做 出 推荐 ， 所 以 对 于 新 用 户 有 “ 冷 启 动 ” 的 问题 。 系 统 开始 时 推荐 质量 较 差 。 

(2) 新 项 目 问题 : 质量 取决 于 历史 数据 集 。 

G) 稀 朴 性 问题 (Sparsity) o 
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(4) 系统 延伸 性 问题 (Scalability〉。 

(5) 方法 的 核心 是 基于 历史 数据 ， 所 以 对 新 物品 和 新 用 户 都 有 “ 冷 启动 ”的 问题 。 

推荐 的 效果 依赖 于 用 户 历史 偏好 数据 的 多 少 和 准确 性 。 

在 大 部 分 的 实现 中 ， 用 户 历史 偏好 是 用 稀疏 矩阵 进行 存储 的 ， 而 稀 玻 矩阵 上 的 计算 有 
些 明 显 的 问题 ， 包 括 可 能 少 部 分 人 的 错误 偏好 会 对 推荐 的 准确 度 有 很 大 的 影响 ， 等 等 。 对 
于 一 些 特殊 品味 的 用 户 不 能 给 予 很 好 的 推荐 。 由 于 以 历史 数据 为 基础 ， 抓 取 和 建 模 用 户 的 
偏好 后 ， 很 难 修改 或 者 根据 用 户 的 使 用 演变 ， 从 而 导致 这 个 方法 不 够 灵活 。 

最 近邻 居 算法 存在 两 个 重大 问题 : 

CD 数据 稀疏 性 。 一 个 大 型 的 电子 商务 推荐 系统 一 般 有 非常 多 的 物品 ， 用 户 可 能 买 的 
其 中 不 到 1% 的 物品 ， 不 同 用 户 之 间 买 的 物品 重合 性 较 低 ， 导 致 算法 无 法 找到 一 个 用 户 的 邻 
居 ， 即 偏好 相似 的 用 户 。 

(2) 算法 扩展 性 。 最 近邻 居 算 法 的 计算 量 随 着 用 户 和 物品 数量 的 增加 而 增加 ， 不 适合 
数据 量 大 的 情况 使 用 。 


13.2.6 混合 的 推荐 机 制 


网 站 上 的 推荐 ， 都 不 会 单纯 只 采用 一 种 推荐 的 机 制 和 策略 ， 通 常 是 将 多 个 方法 混合 在 
一 起 ， 希 望 有 更 好 的 推荐 效果 。 就 好 像 集成 学 习 ， 可 以 组 合 各 种 推荐 机 制 ， 以 下 是 几 种 组 
合 方法 。 

(1) 加 权 的 混合 CWeighted Hybridization) : 用 线性 公式 (linear formula) 将 几 种 不 
同 的 推荐 按照 一 定 权重 组 合 起 来 ， 具 体 权 重 的 值 需要 在 测试 数据 集 上 反复 实验 ， 从 而 达到 
最 好 的 推荐 效果 。 这 是 类 似 集成 学 习 的 并 行 式 方法 。 

(2) 后 设 的 混合 (Meta-Level Hybridization) : 采用 多 种 推荐 机 制 ， 并 将 一 个 推荐 机 
制 的 结果 作为 另 一 个 的 输入 ， 从 而 综合 各 个 推荐 机 制 的 优 缺点 ， 得 到 更 加 准确 的 推荐 。 这 
是 类 似 集成 学 习 的 序列 式 方法 Boosting 或 分 层 方法 Stacking， 要 注意 接口 。 

G) 切换 的 混合 (Switching Hybridization) : 对 于 不 同 的 情况 〈 数 据 量 、 系 统 运行 状 
况 、 用 户 和 物品 的 数目 等 ) ， 推 荐 策略 可 能 有 很 大 的 不 同 ， 那 么 切换 的 混合 方式 ， 就 是 允 
许 在 不 同 的 情况 下 ， 选 择 最 为 合适 的 推荐 机 制 计算 推荐 。 

(4) 分 区 的 混合 (Mixed Hybridization) : 采用 多 种 推荐 机 制 ， 并 将 不 同 的 推荐 结果 
分 不 同 的 区 显示 给 用 户 。 亚 马 逊 等 电子 商务 网 站 都 是 采用 这 样 的 方式 ， 用 户 可 以 得 到 较 好 
的 推荐 。 


*065EZZI 


13.3.1 推荐 系统 R 语 言 


推荐 系统 的 评分 数据 是 矩阵 的 格式 ， 行 是 用 户 user， 列 是 用 品 item。 

R 语言 包 recommenderlab (图 13-5) 的 raringMatrix 为 评分 数据 接口 ，raringMatrix 提 供 
两 种 框架 realRatingMatrix 和 binaryRatingMatrix。 其 中 realRatingMatrix 使 用 的 是 真实 值 ( 通 
常 是 1~S 分) 的 评分 和 矩阵， 存储 在 由 Matrix 包 定义 的 稀 朴 矩阵 (spare matrix) 格式 中 ; 
binaryRatingMatrix 使 用 的 是 0-1 评 分 矩阵， 存储 在 由 arule 包 定义 的 itemMatrix 中 ， 如 第 3 章 
图 3-1 的 二 元 关联 矩阵 。 推 荐 输出 结果 有 预测 评分 predict 和 最 高 N 列 表 topNList。 

Rif 


语言 包 recommenderlab 提 供 下 列 算法 : 


基于 用 户 协 同 过 滤 (User-based collborative filtering; UBCF) 
基于 项 目 协 同 过 滤 (Ttem-based collborative filtering, IBCF) 
奇异 值 分 解 (SVD with column-mean imputation, SVD) 
Funk 奇 异 值 分 解 (Funk SVD, SVDF) 

基于 关联 规则 的 推荐 (Association rule-based recommender, AR) 
流行 的 项 目 (Popular items, POPULAR) 

随机 选择 (Randomly chosen items for comparison, RANDOM) 
重 推荐 喜爱 项 目 CRe-recommend liked items, RERECOMMEND) 
混合 推荐 (Hybrid recommendations，HybridRecommender) 


电影 数据 笑话 数据 
MovieLense Jester5k 


推荐 方法 预测 评价 结果 混淆 矩阵 
UBCE; IBCE; -- predict evaluationResult confusionMatrix 


图 13-5 Rif frecommenderlab 


/大 语 数 据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


13.3.2 recommenderlab 函数 程序 


@ data 数据 


Data «- data(Jester5k) # Data «- data (MovieLense) 


4 Data 是 realRatingMatrix 真实 值 评分 矩阵 


> 
> Data bin «- binarize(Data, minRating-1) # 1 分 以 上 为 TRUE 
> 
> # Data bin 是 binaryRatingMatrix 0-1 评 分 矩阵 (TRUE， FALSE) 


@ evaluationScheme 评价 方案 
(1) 保留 方法 抽样 : 


> eS <- evaluationScheme (Data, method = "split", train = 0.8, given-15, 


* goodRating - 5) 
(2) 大 折 交 叉 验证 : 


> n fold <- 4 ; items keep <- 15 ; rating threshold <- 3 
> Es «- evaluationScheme (Data, method = "cross-validation",k = n fold, 


+ given = items keep, goodRating = rating threshold) 
G) 自助 法 抽样 : 
> es <- evaluationscheme (Data, method = "bootstrap") 


© getData 取得 数据 

> gD = getData(Es, "train") 4 split 方案 的 训练 数据 
> gD = getData(eS, "known") # split 方案 的 训练 数据 
> gD = getData(es, "unknown") # split 方案 的 测试 数据 


@ Recommender 推荐 

> r_ubcf <- Recommender(gD, "UBCF") 

> r <- Recommender(gD, type, param=list (normalize = "center", 
+ method="Cosine") ) 

> # type = "UBCF", "IBCF", "SVD", "POPULAR", "RANDOM" 

> # normalize = "NULL", "center", "z-score" 

> # method = "Cosine", "Euclidean", "pearson", 

G predict 预测 


» pr «- predict(r, gD, type - "ratings") 
> pr «- predict(r, gD, n = 5, type = "topNList") 


@ calcPredictionAccuracy 评价 正确 性 
> cp <- calcPredictionAccuracy (pr, gD) 
@ evaluate 评价 


» ev «- evaluate(eS, method - type, n - c(5, 10, 15)) 
> ev «- evaluate(eS, method = "UBCF", type = "topNList", n = c(5,10,15) ) 


®© ConfusionMatrix 混淆 矩阵 


> getConfusionMatrix (results) 


© plot 绘图 


> plot(pv, legend-"topleft", annotatr-TRUE) # ROC 
» plot(pv, "prec", legend-"bottomright", annotatr-TRUE) 


13.3.3 ”模拟 数据 


> # R 例 13.1 


if (!require (recommenderlab) ) {install.packages ("recommenderlab") } 
library(recommenderlab) ; set.seed(100) ; options (digits=3) 

m <- matrix (sample (c (as.numeric (0:5), NA), 50, replace=TRUE, 
prob=c (rep(.4/6,6),.6)), ncol-10, dimnames=list (user=paste 

("u", 1:5, sep=''), item=paste("i", 1:10, sep-''))) 

m ; r «- as(m, "realRatingMatrix") 

str(r) ; getRatingMatrix(r) ; identical(as(r, "matrix"),m) 

as(r, "list") ; head(as(r, "data.frame")) 


r m «- normalize(r) ; r m 


> 

» 

> 

+ 

+ 

> 

> 

> 

> 

> getRatingMatrix(r m) ; getRatingMatrix(r) 

» denormalize(r m) ; r d «- denormalize(r m) 
» getRatingMatrix(r d) 

» image(r, main - "Raw Ratings") 

» image(r m, main - "Normalized Ratings") 
> 4$ r 转换 为 0-1 TRUE FALSE f, 3 分 ( 含 ) 以 上 为 TRUE 
> r b <- binarize(r, minRating-3) ; r b 

» as(r b, "matrix") 

- 


+ 图 13-6 


/大 话 数 据 科学 
了 大 数据 与 机 器 学 习 实 战 (基于 RR 语言 ) 
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Dimensions: 5 x 10 
13-6 ”正规 化 评分 图 


> # R 例 13.2 

> if (! require (recommenderlab) ) {install.packages ("recommenderlab") } 
> library(recommenderlab) ; set.seed(123) ; options (digits-3) 

» f «- matrix(nrow-10, ncol -10) 

> f[sample.int(10*10, 30)] <- ceiling (runif(10,0,5)) 

2g 


[1] L2] [3] [4] [5] [6] E,7] E,8] [,9] [,10] 


[1,] NA NA NA 3 NA NA 1 NA 2 5 
[2,1 5 3 NA NA NA NA 4 4 NA NA 
[3,] NA NA 3 NA NA NA NA NA NA NA 
[4,1 5 NA 3 NA NA 3 NA NA NA 3 
[5,.] NA NA NA NA 4 NA NA NA NA 3 
[6,] NA 5 NA 1 3 5 NA NA 1 2 
[7,] NA 3 NA NA NA 3 3 NA 3 NA 
[8,] NA NA NA NA NA NA NA 2 5 NA 
[9,] NA NA NA NA NA NA NA M 5 NA 

[10,1] 5 NA NA NA 5 NA NA NA NA M 


» r «- as(f, "realRatingMatrix") 
> UB.cf <- Recommender (r, "UBCF") 


» predUB «- predict(UB.cf, r, type-"ratings") 


» as(predUB, "matrix") 


[,1] DL 21 [,3] E,31 [,5] [,6] [,7] [,8] E,9] [10] 
[1,] NA 2.83 NA NA NA 2.71 NA 2.39 NA 
[2,] NA NA NA 3.39 
[3,] NA NA NA NA 
[4,] NA 3.47 NA 3.39 
[5,] NA NA NA 3.17 
[6,] 3.2 NA NA NA 
[7,] NA NA NA 3.00 
[8,] NA 4.22 NA 2.97 
[9,] NA NA NA 5.00 
[10,] NA NA NA NA 
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» IB.cf «- Recommender(r, "IBCF") 
» predIB «- predict(IB.cf, r, type-"ratings") 
» as(predIB, "matrix") 


ý 2 3 4 5 6 7 8 
R3 5.00 3.33 5.0 NA 3.19 2.58 NA 1.5 NA NA 
;] NA NA 5.0 3.00 4.00 4.00 NA NA 3.00 4 
[3,] NA NA NA NA NA NA NA NA NANA 
[4,] NA 3.67 NA 
[5,] 3.50 3.50 
[6,] 3.75 NA 
[7,] NA NA NA NA NA NA NA NA NANA 
[8,] NA 5.00 NA 5.00 5.00 5.00 3.50 NA NA 5 
[9,] NA NA NA NA NA NA NA NA NA NA 
[10,] NA NA NA NA NA NA NA NA NA 


1997.9 到 1998.4 根 据 943 个 用 户 针 对 1664 部 电影 ， 大 约 有 100000 个 评分 数据 


+ R 例 13 .3 

if(!require (recommenderlab)) {install.packages ("recommenderlab") } 
library(recommenderlab) ; library(ggplot2) ; library (profvis) 
data (MovieLense) ; str(MovieLense) 

MovieLensel00 «- MovieLense[rowCounts (MovieLense) >100,] 

train «- MovieLensel00[1:50] 


(r POPU «- Recommender(train, method = "POPULAR")) 


WM ow MONS Wo 


(pre «- predict(r POPU, MovieLensel00[101:102], n - 10, 


/大 话 数据 科学 
大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) 


type="topNList")) 
as (pre, "list") 
(pre «- predict(r POPU, MovieLensel00[101:102], type-"ratings")) 
as(pre, "matrix")[,1:10] 
(pre «- predict(r POPU, 1:10 , data = train, n = 10, type-"topNList")) 
as(pre, "list") 
(r UBCF «- Recommender(train, method = «UBCF»)) 
(pre «- predict(r UBCF, MovieLensel00[101:102], n - 10)) 
as(pre, "list") 
(pre «- predict(r UBCF, MovieLensel00[101:102], type-"ratings")) 
as(pre, "matrix")[,1:10] 
(pre «- predict(r UBCF, 1:10 , data - train, n - 10)) 
as(pre, "list") 
data(MovieLense) ; MovieLense 
head(as(MovieLense[1,], "list")[[1]]) 
image (MovieLense[1:10,1:10]) ; pause(10) 
hist(rowCounts (MovieLense)) ; pause(10) 
hist(colCounts (MovieLense)) ; pause(10) 
mean (rowMeans (MovieLense)) ; head (MovieLenseMeta) 
Data «- MovieLense[rowCounts (MovieLense) » 50, 

colCounts (MovieLense) > 100] 
Data ; n fold «- 4 ; items keep «- 15 ; rating threshold «- 3 
eS <- evaluationScheme (data = Data, method = "cross-validation", 
k = n fold, given = items keep, goodRating = rating threshold) 
model evaluate «- "IBCF" 
model parameters <- NULL 
gD = getData(eS, "train") 
r «- Recommender(data - gD, 

method = "IBCF", parameter = model parameters) 
pr «- predict(r, gD, n = 10, type = "ratings") 
qplot(rowCounts(pr)) + geom histogram(binwidth = 20) 
ggtitle("Distribution of movies per user") 
ev <- evaluate(eS, method = "IBCF", n = seq(10, 100, 10)) 
class(ev) ; head(getConfusionMatrix (ev) [[1]]) 
plot(ev, "prec/rec", annotate - TRUE, main - "Precision-recall") 
pause (10) 
models evaluate «- list( 

IBCF cos = list(name- "IBCF", param = list (method = "cosine")), 
IBCF cor - list(name - "IBCF", param - list(method - "pearson")), 


UBCF cos - list(name - "UBCF", param - list(method - "cosine")), 


UBCF cor list(name = "UBCF", param = list (method = "pearson")), 


+ + + + o6 MOM VY VV VV Vt VV VV + VV t VV VV VV VV ON ON VY VM VV VV VyYV + 


random = list(name = "RANDOM", param=NULL) ) 
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n recommendations <= ¢(1, 5, seq(10; 100, 10)) 
list results <- evaluate(x = eval sets, method = models evaluate, 
n- n recommendations) 
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图 13-7 ”协同 过 滤 ROC 曲 线 
plot(list results, annotate-1, legend-"topleft") + title("ROC curve") 
plot(list results, "prec/rec", annotate = 1, legend = "bottomright")+ 
title("Precision-recall") ; pause(10) 
vector k «- c(5, 10, 20, 30, 40) 
models evaluate «- lapply(vector k, function (k) { 
list (name = "IBCF", param = list (method = "cosine", k = k))]) 
names (models evaluate) <- pasteO("IBCF k ", vector k) 
n recommendations «- c(1, 5, seq(10, 100, 10)) 
list results <- evaluate(x = eval sets, method = models evaluate, 
n = n recommendations) 
plot(list results, annotate = 1, legend = "topleft")+ title("ROC curve") 
plot(list results, "prec/rec", annotate = 1l, legend = "bottomright") 
title("Precision-recall") 
4 混合 推荐 Hybrid Recommender 
MovieLense50 «- MovieLense[rowCounts (MovieLense) >50,] 
train «- MovieLense50[1:100] ; test «- MovieLense50[101:105] 


/大 语 数据 科学 
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二 大 数据 与 机 器 学 习 实战 (基于 R 语 言 ) | 


hybrid recom «- HybridRecommender( Recommender(train, method = "UBCF") 
Recommender (train, method = "RANDOM"), weights = c(.7,.3) ) 

hybrid recom 

getModel(hybrid recom) ; as(predict(hybrid recom, test, n-5), "list" 
HH 基于 内 容 过 滤 

mov URL«-"http://files.grouplens.org/datasets/movielens/ml-100k/u.item" 


movieTitleDF «- read.table(mov URL, header = F, sep = "|", quote = "\"") 
names (movieTitleDF) «- c("MovieID", "Title", "ReleaseDate", 
"VideoReleaseDate", "IMDB", "Unknown", "Action", "Adventure", 
"Animation", "Childrens", "Comedy", "Crime", "Documentary", "Drama", 
"Fantasy", "FilmNoir", "Horror", "Musical", "Mystery", "Romance", 
"SciFi", "Thriller", "War", "Western") 
movieTitleDF$ReleaseDate<-NULL ; movieTitleDF$VideoReleaseDate«-NULL 
movieTitleDF$IMDB <- NULL ; movieTitleDF <- unique (movieTitleDF) 
str(movieTitleDF) 

URL «- "http://files.grouplens.org/datasets/movielens/ml-100k/u.data" 
userDF <- read.table(URL, header = F, sep = "Mt", quote = "\"") 
names(userDF) «- c("UserID", "ItemID", "Rating") 

userDF «- userDF[,1:3] ; str(userDF) 

clusterMovies«-function (movieTitleDF) (set.seed(123) 
movieTitleDF«-movieTitleDF[,c(-1,-2)] 

movieCluster <- kmeans (movieTitleDF, 10, nstart = 20) 

return (movieCluster) } 

getUserInfo«-function (dat, id) { 

a <-subset (dat, UserID==id,select=c(ItemID, Rating) ) 

cluster <- 0 

activeUser <- data.frame( a[order(a$ItemID),] ,cluster) 

return (activeUser) } 

setUserMovieCluster<-function(movieCluster, activeUser) { 

dfl«- data.frame(cbind(movieTitleDF$MovieID, clusterNum = 
movieCluster$cluster) ) 

names (df1)«-c ("movie id" i "ecluster^) 
activeUser$cluster«-dfl[match (activeUser$ItemID, dfl$movie id),2] 
return(activeUser) } 

getAverageClusterRating«-function (movieCluster, activeUser)( 
like«-aggregate (activeUser$Rating, 
by-list(cluster-activeUser$cluster), mean) 

if(max(like$x)«3)( like«-as.vector(0) } else( 
like«-as.vector(t(max(subset(like, x>=3, select=cluster)))) } 
return(like) } 

getGoodMovies«-function(like, movieCluster, movieTitleDF) { 


dfl«- data.frame(cbind(movieTitleDF$MovieID, clusterNum = 


+ movieCluster$cluster)) 

+ names(dfl)«-c("movie id", "cluster") 

+ if(like--0) {recommend<-movieTitleDF[sample.int (n=dim(titleFilmDF) [1], 
+ size = 100), 1] } 

+ else{recommend<-as.vector (t (subset (dfl, cluster == like, 

+ select=movie_id))) } + return (recommend) } 

> getRecommendedMovies<-function(movieTitleDF, userDF, userid) { 

+ movieCluster«-clusterMovies (movieTitleDF) 

* activeUser«-getUserInfo(userDF, userid) 

* activeUser«-setUserMovieCluster (movieCluster, activeUser) 

+ like«-getAverageClusterRating (movieCluster, activeUser) 

+ recommend«-getGoodMovies (like, movieCluster, movieTitleDF) 

+ recommend«-recommend[-activeUser$ItemID] 

* mov title«-movieTitleDF [match (recommend, movieTitleDF$MovieID),2] 

* recommend<-data. frame (recommend,mov title) 

+ return(recommend) } 

> suggestMovies«-function (movieTitleDF, userDF, userid, num movies)( 
+ suggestions = getRecommendedMovies (movieTitleDF, userDF, userid) 

* suggestions - suggestions[1:num movies,] 

+ writeLines("You may also like these movies:") 

+ write.table(suggestions[2], row.names = FALSE, col.names = FALSE) } 
» suggestMovies (movieTitleDF, userDF, 196, 5) 


13.4.2 ”笑话 数据 


5000X100 评 分 矩阵 rating matrix 〈5000 用 户 100 笑 话 ) 评分 C-10—10 ) 。 所 有 选 出 用 
户 至 少 评分 36 个 以 上 笑话 
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# R 例 13.4 

if(!require (recommenderlab)) {install.packages ("recommenderlab")} 
library (recommenderlab) 

data(Jester5k) ; str(Jester5k) ; Jester5k ; nratings (Jester5k) 
summary (rowCounts (Jester5k)) 

hist (getRatings (Jester5k), main-"Distribution of ratings") 
best <- which.max(colMeans (Jester5k)) 

cat(JesterJokes[best]) ; as(Jester5k[10, ], "list") 

rowMeans (Jester5k[10, ]) ; colMeans(Jester5k[, 1]) 
hist(getRatings(Jester5k), breaks - 100) 

hist(getRatings (normalize(Jester5k)), breaks - 100) 

hist (rowCounts (Jester5k), breaks = 50) ; set.seed(123) 


/大 话 数据 科学 


+ V+ VV VV VY VY VV VY VM VM VV + VV VV VV VV VV VV VV VY VV VO VY VM VY + Vv 


了 大 数据 与 机 器 学 习 实 战 ( 基于 R 语 言 ) | 


eS <- evaluationScheme (Jester5k, method = "split", train = 0.8, 
given-15,goodRating - 5) 
gD «- getData(eS, "train") 
r ubcf <- Recommender (gD, "UBCF") 
r ibcf «- Recommender(gD, "IBCF") 
r svd <- Recommender(gD, "SVD") 
r popular <- Recommender (gD, "POPULAR") 
r random «- Recommender(gD, "RANDOM") 
pr ubcf «- predict(r ubcf, gD, type - "ratings") 
pr ibcf «- predict(r ibcf, gD, type = "ratings") 
pr svd «- predict(r svd, gD, type - "ratings") 
pr pop «- predict(r popular, gD, type - "ratings") 
pr ran «- predict(r random, gD, type - "ratings") 
gDu = getData(eS, "unknown") 
(Pl «- calcPredictionAccuracy(pr ubcf, gDu)) 
(P2 «- calcPredictionAccuracy(pr ibcf, gDu)) 
(P3 «- calcPredictionAccuracy(pr svd, gDu)) 
(P4 <- calcPredictionAccuracy (pr pop, gDu)) 
(P5 <- calcPredictionAccuracy(pr ran, gDu)) 
error «- rbind(Pl, P2, P3, P4, P5) 
rownames(error) «- c("UBCF", "IBCF", "SVD", "Popular", "Random") 
error 
CF <- list(POPULAR = list(name = "POPULAR"), 
UBCF - list(name - "UBCF"), IBCF - list(name - "IBCF")) 
CE 
evlist «- evaluate(eS, CF, n - c(5, 10, 15)) 
options (digits = 3) ; set.seed(1) 
avg (evlist) 
plot(evlist, legend - "topleft", annotate - TRUE) ; pause(5) 
plot(evlist, "prec", legend = "bottomright", annotate = TRUE) 
pause (5) 
(R1 <- Recommender(Jester5k, method = "POPULAR")) 
pr <- predict(R1, Jester5k[1:2], n = 5) ; as(pr, "list") 
(pra <- predict(R1, Jester5k[300:309], type = "ratings")) 
as(pra, "matrix")[, 71:73] 
Jester.bin «- binarize(Jester5k, minRating = 5) 
Jester.bin <- Jester.bin[rowCounts (Jester.bin) > 10] ; Jester.bin 
set.seed(123) 
eS.bin «- evaluationScheme (Jester.bin, 
method = "cross-validation", k = 5, given = 10) 
CF.bin «- list("random" - list(name-"RANDOM", param-NULL), 
"popular" = list(name = "POPULAR", param = NULL), 
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"UBCF" = list (name-"UBCF")) 

eV.bin «- evaluate(eS.bin, CF.bin, n = c(5, 10, 15)) 
plot(eV.bin, legend ="topleft") 
plot(eV.bin, "prec", legend - "bottomright") 
HH RAH 
eS <- evaluationScheme (Jester5k, method="split", train=0.8, given=20, 
goodRating-0) 
gD = getData(eS, "train") 
r hybrid <- HybridRecommender (Recommender (gD, method = "POPULAR"), 
Recommender (gD, method="IBCF", 

param=list (normalize = NULL, method="Cosine")), 
Recommender (gD, method-"UBCF", 

param=list (normalize = "Z-score",method="Euclidean") ), 
Recommender (gD, method = "RANDOM"), 
weights = c(.2, .3, .3,.2) ) 
getModel (r_hybrid) 
pred <- predict(r_hybrid, gD, type="ratings") 
#44 0-1)75)98E% (TRUE, FALSE) 
Jester5k bin <- binarize(Jester5k, minRating=1) 
class(Jester5k bin) ; head(Jester5k bin) 
Jester5k bin mat <- as(Jester5k bin,"matrix") 
colnames(Jester5k bin mat num)[colSums(is.na(Jester5k bin mat num)) » 0] 
rules «- apriori(data - Jester5k bin mat num, parameter - 
list(supp = 0.5, conf = 0.8)) 
inspect(rules) ; rulesdf «- as(rules, "data.frame") 
rulesdf[order(-rulesdf$lift, -rulesdf$confidence), ] 
data(Jester5k) ; str(ster5k) ; head(Jester5k@data[1:5,1:5]) 
Jester5k@data[1,] ; Jester5k@data[100,] 
zero.ratings <- rowSums(Jester5k@data == 0) 
zero.ratings.df <- data.frame("user" = names(zero.ratings), "count" = 
zero.ratings) 
head (zero.ratings.df) 
head (zero.ratings.df [order (-zero.ratings.df$count),], 10) 
hist (zero.ratings.df$count, main ="Distribution of zero rated jokes") 
zero.density <- density (zero.ratings.df$count) 
plot (zero.density) 
model <- kmeans (zero.ratings.df$count,3 ) 
model$centers ; model$size 
model.df «- data.frame(centers - model$centers, size - model$size, 
perc = (model$size / 5000) * 100) 
head(model.df) ; JesterS5k@data[,1] ; par(mfrow=c (2,2)) 
joke.density <- density (Jester5kedata[,1]) 
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plot(joke.density) ; joke.density «- density(Jester5k@data[,25]) 

plot(joke.density) ; joke.density <- density(Jester5k@data[,70]) 

plot(joke.density) ; joke.density «- density(Jester5k@data[,100] 

plot(joke.density) ; par(mfrow-c(1,1)) ; nratings (Jester5k) 

hist (getRatings (Jester5k), main-"Distribution of ratings") 
ratings.binary <- binarize(Jester5k, minRating =0) 

ratings.binary 

ratings.sum «- colSums (ratings.binary) 

ratings.sum.df «- data.frame(joke = names(ratings.sum), pratings = 
ratings.sum) 

head( ratings.sum.df[order(-ratings.sum.df$pratings), ],10) 

tail( ratings.sum.df[order(-ratings.sum.df$pratings), ],10) 

data <- sample(Jester5k, 1500) 

hist(getRatings (data), main-"Distribution of ratings for 1500 users") 

data «- sample(Jester5k, 1500) 

ratings.mat «- getRatingMatrix (data) 

str(ratings.mat) ; str (data@data) 

data.norm <- normalize(data, method = "center") 

data.norm.z <- normalize(data, method = "Z-score") ; par(mfrow=c(3,1) 

plot (density (getRatings(data)), main = "Raw") 

plot (density (getRatings (data.norm)), main = "Normalized") 

plot (density (getRatings (data.norm.z)), main = "Z-score normalized") 

par (mfrow=c (1,1) ) 

sample <- evaluationScheme(data, method="split", train=0.9, given = 10, 
goodRating=5) 

(train «- getData(sample, "train")) 

(test «- getData(sample, "unknown")) 

test.known «- getData(sample, "known") 

test.known ; dim(train@data) ; dim(test@data) 

# RANDOM 

random.model <- Recommender(train, "RANDOM") ; random.model 

getModel (random.model) 

random.predict «- predict (random.model, test.known, n = 5, 

type = "topNList") 

random.predict@items[1] ; random.predict@ratings[1] 

test@data[1,] 

# POPULAR 

popular.model <- Recommender (train, "POPULAR") ; popular.model 

popular.predict «- predict(popular.model, test.known, n - 5, 

type = "topNList") 

popular.predict@items[1] ; popular.predict@ratings[1] 
testédata[1,c(50,32,36,27,53)] 
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results «- evaluate(sample, method = "POPULAR", type = "topNList", 
n=5) 

getConfusionMatrix (results) 

sample «- evaluationScheme (data, method="cross", train=0.9, 
given - 10, goodRating-5) 

results «- evaluate(sample, method = "POPULAR", type = "topNList", 
a = c(5,10,15) ) 

avg (results) 

# UBCF 

sample <- evaluationScheme (data, method-"cross", train-0.9, 
given = 10, goodRating-5) 

results «- evaluate(sample, method - "UBCF", type - "topNList", 
x = 6(5,10,15) ) 

avg (results) 

# IBCF 

sample <- evaluationScheme (data, method-"cross", train-0.9, 
given = 10, goodRating-5) 

results «- evaluate(sample, method - "IBCF", type - "topNList", 
n = c(5,10,15) ) 

avg (results) 

# SVDF 

sample «- evaluationScheme (data, method-"cross", train-0.9, 
given = 10, goodRating-5) 

results «- evaluate(sample, method - "SVDF", type - "topNList" 
n = 0(5,10,15) ) 


avg (results) 
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佛祖 慧眼 观看 ， 见 那 猴 王 风车 子 一 般 相 似 ， 不 住 只 管 前 进 。 

大 圣 行 时 ， 忽 见 有 五 根 肉 红 柱 子 ， 撑 着 一 股 青 气 ， 他 道 : 

“此 间 乃 尽头 路 了 ， 这 番 回 去 ， 如 来 作证 ， 灵 震 宫 定 是 我 坐 也 。” 
又 思量 说 : “HE! 等 我 留 下 些 记 号 ， 方 好 与 如 来 说 话 。” 

拔 下 一 根 毫 毛 ， 吹 口 仙 气 ， 叫 : “R” 

变 作 一 管 浓 墨 双 毫 笔 ， 在 那 中 间 柱 子 上 写 一 行 大 字 云 : 

“ 齐 天 大 圣 ， 到 此 一 游 。” 


吴承恩 《西游 记 》 


本 书 暂时 告 一 个 段落 。 

大 数据 还 有 很 长 的 路 要 走 ， 后 续 还 有 : 基于 Python 语 言 的 数据 科学 、 神 经 网 络 、 深 度 
学 习 、 大 数据 人 工 智能 、 时 间 序 列 、 半 监督 式 学 习 、 文 本 挖掘 、 图 像 识别 、 序 列 挖掘 、 社 
群 网 络 、 可 视 化 处 理 、 分 布 式 处 理 、 大 数据 框架 工具 以 及 大 数据 案例 应 用 等 。 

休息 一 下 ， 接 下 来 要 走 更 远 的 路 。 

感谢 大 家 。 
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